Главная страница
Навигация по странице:

  • ФИО студента Назарова Хаджар Эльшан кызы Направление подготовки

  • Название столбца (признака) Смысл (англ.) Смысл (русск., google)

  • Тип признака

  • Ценное Замечание

  • Числовые харак-ки TotalPop

  • Интервалы Обозначение интервала Нижняя граница

  • Информатика и информационные технологии _П34_4_Назарова Х.Э.. Российский государственный социальный университет по дисциплине Информатика и информационные технологии в профессиональной деятельности


    Скачать 1.75 Mb.
    НазваниеРоссийский государственный социальный университет по дисциплине Информатика и информационные технологии в профессиональной деятельности
    Дата18.06.2022
    Размер1.75 Mb.
    Формат файлаdocx
    Имя файлаИнформатика и информационные технологии _П34_4_Назарова Х.Э..docx
    ТипДокументы
    #601687






    Российский государственный социальный университет



    по дисциплине «Информатика и информационные технологии в профессиональной деятельности »

    Практическое задание 4


    ФИО студента

    Назарова Хаджар Эльшан кызы

    Направление подготовки

    44.03.02 «Психолого-педагогическое образование» (бакалавр)

    Группа

    ПЕД-Б-0-З-2018-1 ДИСТАНТ


    Москва 2021

    1. Загрузка и подготовка датасета для анализа

    1.1 Переходим по ссылке, знакомимся с контентом страницы.




    и ниже:

    Обращаем внимание на Context, Content, Inspiration, переводим.
    Из этих текстов извлекаем:
    - общее описание, тему:
    Набор данных включает данные переписи по США 2015 года по округам всех штатов.
    В дальнейшем, по мере работы с датасетом, возможна корректировка
    - идеи для анализа, предлагаемые автором датасета
    Есть много вопросов, на которые мы могли бы попытаться ответить, используя данные здесь. Можем ли мы предсказать такие вещи, как состояние (классификация) или доход домохозяйства (регрессия)? Какие типы кластеров мы можем найти в данных?

    1.2. Выбор конкретного датасета, если их несколько




    Видим, что датасетов на странице несколько, ищем описания, по описанию выбираем датасет, с которым будем работать. В зависимости от варианта датасет может быть единственным.
    Обращайте внимание на размер файлов.
    Для отображения всех столбцов с их расшифровками выберите Select All


    1.3. Копирование названий столбцов и их описаний с сайта




    По разделу About this file можно перемещаться стрелками. Скопируем названия столбцов и их описания, переведем описания, это пригодится для отчета и для того, чтобы выбрать те столбцы, с которыми дальше будем работать.


    Выделяйте мышью, аккуратно и до конца. Получится примерно так, как ниже.

    Выделены примеры служебных слов, которые нужно удалить (меню Главная -Заменить - ...)

    CensusIdsort

    County Census ID

    text_formatStatesort

    State, DC, or Puerto Rico

    text_formatCountysort

    County or county equivalent

    grid_3x3TotalPopsort

    Total population

    grid_3x3Mensort

    Number of men

    grid_3x3Womensort

    Number of women

    grid_3x3Hispanicsort

    % of population that is Hispanic/Latino

    grid_3x3Whitesort

    % of population that is white

    grid_3x3Blacksort

    % of population that is black

    grid_3x3Nativesort

    % of population that is Native American/Native Alaskan

    grid_3x3Asiansort

    % of population that is Asian

    grid_3x3Pacificsort

    % of population that is Native Hawaiian or Pacific Islander

    grid_3x3Citizensort

    Number of citizens

    grid_3x3Incomesort

    Median household income ($)

    grid_3x3IncomeErrsort

    Median household income error ($)

    grid_3x3IncomePerCapsort

    Income per capita ($)

    grid_3x3IncomePerCapErrsort

    Income per capita error ($)

    grid_3x3Povertysort

    % under poverty level

    grid_3x3ChildPovertysort

    % of children under poverty level

    grid_3x3Professionalsort

    % employed in management, business, science, and arts

    grid_3x3Servicesort

    % employed in service jobs

    grid_3x3Officesort

    % employed in sales and office jobs

    grid_3x3Constructionsort

    % employed in natural resources, construction, and maintenance

    grid_3x3Productionsort

    % employed in production, transportation, and material movement

    grid_3x3Drivesort

    % commuting alone in a car, van, or truck

    grid_3x3Carpoolsort

    % carpooling in a car, van, or truck

    grid_3x3Transitsort

    % commuting on public transportation

    grid_3x3Walksort

    % walking to work

    grid_3x3OtherTranspsort

    % commuting via other means

    grid_3x3WorkAtHomesort

    % working at home

    grid_3x3MeanCommutesort

    Mean commute time (minutes)

    grid_3x3Employedsort

    Number of employed (16+)

    grid_3x3PrivateWorksort

    % employed in private industry

    grid_3x3PublicWorksort

    % employed in public jobs

    grid_3x3SelfEmployedsort

    % self-employed

    grid_3x3FamilyWorksort

    % in unpaid family work

    grid_3x3Unemploymentsort

    Unemployment rate (%)

    Очищенный текст преобразуем в таблицу с двумя столбцами (Вставка -Таблица – преобразровать в таблицу) , добавляем третий с переводом.

    1.4. Отбор столбцов (признаков) для дальнейшей работы



    Начинаем продумывать тему для анализа данных. На какие вопросы вы бы хотели (сможете) получить ответ, какие картинки нарисовать?
    Работаем с таблицей описаний признаков (см. ниже)

    Выделяем те прзнаки, которые в дальнейшем оставим для работы. Оставляйте идентификатор, 2-4 качественных и 3-4 количественных признака. Не нужно замахиваться на масштабные исследования))
    Например, относительно данного датасета можно интересоваться распределением рабочих мест по разным формам собственности и уровнем безработицы, оставить данные о подушевом доходе, занятость в разрезах форм собственности рабочих мест и уровень безработицы.


    В четвертом столбце укажите тип признака (качественный или количественный). Определения типов данных выясните самостоятельно.



    Название столбца (признака)


    Смысл (англ.)


    Смысл (русск., google)


    Тип признака


    CensusId


    County Census ID


    Идентификатор переписи населения округа


    идентификатор


    State


    State, DC, or Puerto Rico


    Штат, округ Колумбия или Пуэрто-Рико


    качественный


    County


    County or county equivalent


    Округ или эквивалент округа


    качественный


    TotalPop


    Total population


    Всего населения


    количественный


    Men


    Number of men


    Количество мужчин




    Women


    Number of women


    Количество женщин




    Hispanic


    % of population that is Hispanic/Latino


    % населения, испанского / латиноамериканского происхождения




    White


    % of population that is white


    % белого населения




    Black


    % of population that is black


    % населения чернокожих




    Native


    % of population that is Native American/Native Alaskan


    % населения коренных американцев / коренных жителей Аляски




    Asian


    % of population that is Asian


    % населения азиатского происхождения




    Pacific


    % of population that is Native Hawaiian or Pacific Islander


    % населения Гавайских островов или жителей островов Тихого океана




    Citizen


    Number of citizens


    Количество граждан




    Income


    Median household income ($)


    Средний доход домохозяйства ($)




    IncomeErr


    Median household income error ($)


    Ошибка среднего дохода домохозяйства ($)




    IncomePerCap


    Income per capita ($)


    Доход на душу населения ($)


    количественный


    IncomePerCapErr


    Income per capita error ($)


    Ошибка дохода на душу населения ($)




    Poverty


    % under poverty level


    % ниже уровня бедности




    ChildPoverty


    % of children under poverty level


    % детей за чертой бедности




    Professional


    % employed in management, business, science, and arts


    % занятых в менеджменте, бизнесе, науке и искусстве




    Service


    % employed in service jobs


    % занятых в сфере обслуживания




    Office


    % employed in sales and office jobs


    % занятых в продажах и офисах




    Construction


    % employed in natural resources, construction, and maintenance


    % занятых в сфере природных ресурсов, строительства и технического обслуживания




    Production


    % employed in production, transportation, and material movement


    % занятых в производстве, транспортировке и перемещении материалов




    Drive


    % commuting alone in a car, van, or truck


    % ездят в одиночку на машине, фургоне или грузовике




    Carpool


    % carpooling in a car, van, or truck


    % совместное использование автомобилей в автомобиле, фургоне или грузовике




    Transit


    % commuting on public transportation


    % поездок на общественном транспорте




    Walk


    % walking to work


    % пешком до работы




    OtherTransp


    % commuting via other means


    % поездок на работу другим способом




    WorkAtHome


    % working at home


    % работают дома




    MeanCommute


    Mean commute time (minutes)


    Среднее время в пути (минуты)




    Employed


    Number of employed (16+)


    Количество работающих (16+)




    PrivateWork


    % employed in private industry


    % занятых в частном секторе


    количественный


    PublicWork


    % employed in public jobs


    % занятых на государственных должностях


    количественный


    SelfEmployed


    % self-employed


    % частный предприниматель


    количественный


    FamilyWork


    % in unpaid family work


    % в неоплачиваемой семейной работе


    количественный


    Unemployment


    Unemployment rate (%)


    Уровень безработицы (%)


    количественный


    1.5. Скачиваем датасет (или архив) и сохраняем его



    Теперь скачаем датасет (или архив, как в данном случае)


    Размещаем выбранный датасет в рабочем каталоге

    1.6. Загрузка датасета в Excel. Только два способа.




    Ваш файл имеет расширение CSV (от англ. Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных. Строка таблицы соответствует строке текста, которая содержит одно или несколько полей, разделенных запятыми.

    Формат CSV стандартизирован не полностью.

    Поэтому при открытии в MS Excel данные в некоторых столбцах (даты, десятичные числа, номера версий продуктов) могут отображаться неверно.
    Содержимое файла можно увидеть в Блокноте (Открыть с помощью...):

    Посмотрите на данные в Блокноте.

    Закройте Блокнот.
    Теперь импортируем датасет в MS Excel.
    Способ 1 (неофициальный, но рекомендую). В Блокноте выполнить замену запятой на точку с запятой по всему файлу. Сохранить под новым именем. Из Проводника новый файл открыть в MS Excel.
    Способ 2.

    Запускаем MS Excel. Создаем Новую книгу. Далее меню Данные – из текстового/CSV-файла.

    Загрузить.

    Замечание к обоим способам.
    Если какие-то столбцы исказились (например, версии продукта4.01.03 превратилась в 4 января 2003), то в данной лабораторной работе откажитесь от использования этих столбцов, возьмите для анализа другие. В реальных условиях (на работе) рекомендую открыть файл в Google Table или Libre Office, искажений будет меньше. Дальше исправлять средствами Excel.

    Проверьте, что установлен разделитель целой и десятичной части как точка (Файл – Параметры – снять галочку Использовать системные разделители – установить Разделитель точка)


    Оставим только выбранные ранее столбцы. Удалите лшние.

    2. Основные статистические харатеристики




    Ценное Замечание: Выделить диапазон от позиции курсора до конца вниз Ctrl-Shift-↓
    Создадим новый лист с названием Описательные характеристики, скопируем на него заголовки столбцов:

    2.1. Описательные характеристики для количественных признаков



    Для количественных данных рассчитаем, пользуясь функциями и переходя на нужные листы:


    • средние значения (=СРЗНАЧ(...))


    • дисперсии (=ДИСП()


    • среднеквадратические отклонения (=СТАНДОТКЛОН(...))


    • медианы (=МЕДИАНА(...))


    • моды (=МОДА(...))



    Выяснть самостоятельно смысл этих понятий.



    Замечание: Обратите внимание на запись диапазона ячеек: если вы используете строку заголовков (щелчок по таблице – Конструктор таблиц – строка заголовков), то диапазон записывается по названию заголовка =СРЗНАЧ(acs2015_county_data[TotalPop]), а не =СРЗНАЧ(D2:D3221)

    2.2. Описательные характеристики для качественных признаков




    Для качественных данных рассчитаем


    • моды


    Моду можно найти в Excel, если построить частотную таблицу (таблица частоты встречамости для каждого значения признака) и взять максимальное значение. Сделаем это в разделе Визуализация

    2.3 "Что делать, если числа вопринимаются как текст"




    Возможно, при вычислении среднего появится деление на ноль. Причина в том, что, хотя формат ячейки Числовой, данные воспринимаются как текстовые. Исправление: Главная – Заменить – точку на точку (да-да!)

    Всё получится.



    3. Визуальный анализ




    Формулировать постановку задачи для визуализации нужно самостоятельно. Достаточно одного - двух графиков для каждой комбнации типов данных: два количественных признака, два качественных признака, качественный и количественный признаки.

    3.1. Визуализация: два количественных признака




    Автором сформулрованы самостоятельно такие задачи.

    3.1.1 Точечная диаграмма




    Задача 1. Визуализировать, как распределены значения подушевого дохода и уровня безработицы
    Решение. Строим Точечную диаграмму по двум столбцам


    Вывод: На основе графика можно выдвинуть гипотезу, что зависимость есть, обратная.

    3.1.2 Гистограмма распределения




    Задача 2. Какие значения численности населения распределены по интервалам с шагом?

    Нужно построить гистограмму распределения значений признака численность населения.


    Гистограмма распределения отражает частоты попадания значений количественного признака в интервалы. Это НЕ диаграмма Гистограмма.

    Построить можно, воспользовавшись надстройкой Пакет анализа.

    Но в данной работе сделаем вручную.

    Последовательность действий:


    • определить количество интервалов у гистограммы; используем формулу Стёрджеса N=1+log2(n)=1+log2(3221)=13. Здесь n -объём выборки.


    • определить ширину интервала (с учетом округления); Найдем минимальное и максимальное значения, их разность разделим на N


    • определить границу первого интервала;


    • сформировать таблицу интервалов и рассчитать количество значений, попадающих в каждый интервал (частоту); Для вычисления количества значений, попадающих в каждый интервал, использована формула массива на основе функции ЧАСТОТА()


    • построить гистограмму. Диаграмма Гистограмма с группировкой



    Числовые харак-ки TotalPop


     


    Объём выборки, n


    3221


    Число интервалов, N


    13


    Минимальное значение


    85


    Максимальное значение


    10038388


    Ширина интервала


    772178



    Интервалы


    Обозначение интервала


    Нижняя граница


    Верхняя граница


    Частота


    1


    < 772263


    85


    772263


    1


    2


    < 1544441


    772263


    1544441


    3144


    3


    < 2316619


    1544441


    2316619


    0


    4


    < 3088797


    2316619


    3088797


    52


    5


    < 3860975


    3088797


    3860975


    0


    6


    < 4633153


    3860975


    4633153


    14


    7


    < 5405331


    4633153


    5405331


    0


    8


    < 6177509


    5405331


    6177509


    3


    9


    < 6949687


    6177509


    6949687


    0


    10


    < 7721865


    6949687


    7721865


    2


    11


    < 8494043


    7721865


    8494043


    0


    12


    < 9266221


    8494043


    9266221


    2


    13


    < 10038389


    9266221


    10038389


    0




    3.2. Визуализация: качественные признаки.


    3.2.1 Частотная таблица



    Задача 3. Подсчитать колчество округов в каждом штате
    Это и будет частотная таблица
    Для этого подсчитаем, сколько раз название каждого штата встретилось (частоту появления признака Штат)
    Сделать можно с помощью расширенного фильтра

    (Данные – блок Сортировка и Фильтр – Дополнительно (Расширенный фильтр)

    Замечание. Список уникальных значений можно разместить только на тот же лист.
    Затем подсчитаем количество вхождений каждого названия штата в столбик State с помощью функции =СЧЁТЕСЛИ($B$2:$B$3221;M3) – аргументы приведены для примера

    Перенесем полученные данные на лист Качественные прзнаки, отсортируем и построим диаграмму

    3.2.2 Таблица сопряженности




    Задача 4.

    В данном датасете мало качественных признаков, поэтому пришлось изобрести свои.
    Для второй задачи введем два бинарных признака ( да – нет):

    PublicWork _bin – уровень занятых в государственном секторе выше, чем медианное значение по стране

    Unemployment l_bin - уровень безработицы выше, чем медианное значение по стране

    Выяснить, как распределены округа по этим двум признакам. Составть таблицу сопряженности для этих двух признаков.
    Решение.

    Для заполнения значений обоих признаков используем функциию =ЕСЛИ(...)

    Составим таблицу сопряженности для этих двух бинарных признаков. Для этого сформруем сводную таблицу (Вставить – Сводная таблица)


    В итоге получаем следующую таблицу сопряженности.




    Unemployment_bin %


    PublicWork _bin


    да


    нет


    n


    да


    57.2


    42.8


    1629


    нет


    44


    56


    1591


    Общий итог


    1632


    1588


    3220



    Вывод. Округа с различающимся уровнем присутствия гос. сектора сильно различаются по уровню безработицы (гипотеза).
    Методики анализа и проверки гипотез таких таблиц широко применяются гуманитариями, но их рассмотрение выходит за рамки данного курса.

    3.3. Визуализация: Количественный и качественный признаки.




    При таком сочетании, как правило, интересуются распределенем количественного признака при разных значениях качественного.

    3.3.1 Распределение количественного признака для разных значений (категорий) качественного




    Задача 5. Построим распределене доходов в завсимости от признака Unemployment_bin: превышает в округе уровень безработицы медианный уровень.
    Используем статистические диаграммы – ящик с усами.

    Вывод. Распределение подущевого дохода зависит от уровня безработицы (гипотеза)

    Проверка гипотезы – за рамками курса.

    3.3.2 Линейчатая диаграмма с категориями




    Задача 6. Визуализировать, как распределены доли рабочих мест по разным видам собственности в округе с минимальным уровнем безработицы в сравнении с округом с максимальным уровнем безработицы.
    Имеем пять количественных признаков– уровень безработицы и дол занятых в разных видах собственности. Извлечем из данных нужную информацию и построим диаграмму.
    Найдем округ с максимальным уровнем безработицы и с минимальным, скопируем соответствующие строки, построим линейчатую диаграмму

    Вывод: В округе с минимальной безработицей доля самозанятых превосходит долю занятых в госуд. секторе. В округе с максимальной безработицей - наоборот.
    Можно выдвинуть гипотезы, что уровень безработицы связан с долей самозанятых и долей рабочих мест, принадлежащих госуд. структурам.

    Но проверять их нужно на всех выборках с помощью соответствующих методов проверки гипотез, а не по одной паре случаев.



    Formun Üstü

     

    Formun Altı




    написать администратору сайта