Главная страница
Навигация по странице:

  • Вопросы для самоконтроля

  • Лабораторная работа «Сбор и подготовка данных»

  • РЕГРЕССИОННЫЙ АНАЛИЗ Общие сведения

  • Аналитическое решение

  • Численное решение

  • Выбор функции гипотезы

  • Поручиков М.А. Анализ данных. М. А. Поручиков


    Скачать 1.28 Mb.
    НазваниеМ. А. Поручиков
    АнкорAssistant
    Дата17.11.2021
    Размер1.28 Mb.
    Формат файлаpdf
    Имя файлаПоручиков М.А. Анализ данных.pdf
    ТипАнализ
    #274482
    страница2 из 5
    1   2   3   4   5
    Подготовка данных
    Для использования в системах анализа данные должны быть представлены в определенном, как правило, табличном виде. Однако зачастую наборы данных имеют следующие особенности:
    - отличную от табличной форму представления;
    - пропуски отдельных данных;
    - некорректные значения;
    - большие числовые значения;
    - текстовые данные.
    Перечисленные особенности могут либо привести к затруднениям в процессе дальнейшей обработки данных, либо сделать её невозможной.
    Для устранения отмеченных несоответствий могут быть применены следующие операции:
    - структурирование – приведение данных к табличному
    (матричному) виду;
    - отбор – исключение записей с отсутствующими или некорректными значениями;
    - нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1;
    - кодирование – это представление категориальных данных в числовой форме. Например, при бинарной классификации один из классов можно представить числом «0», а другой класс – числом
    «1».
    При множественной классификации система кодирования несколько усложняется: создается несколько числовых полей по количеству классов в выборке данных, каждый класс кодируется проставлением числа «1» в соответствующем поле.
    Рассмотрим пример подготовки данных. Пусть имеется выборка анкетных данных клиентов банка (табл. 3).
    Таблица 3. Анкетные данные клиентов банка

    Аge
    Marital
    Balance
    Housing
    1 47 married
    1506 yes
    2 33 single
    1 no
    3 35 married high yes
    4 28 single
    447 yes
    5 42 divorced
    2 yes
    6 58 121 yes
    7 43 single
    593 yes

    14
    Для приведения этой выборки данных в «правильный» формат необходимо выполнить следующие операции:
    1) исключить записи №3 и №6 как имеющие отсутствующие или некорректные значения;
    2) нормализовать числовые значения в столбцах Age и Balance;
    3) закодировать категориальные данные в столбцах Marital и Housing.
    После выполнения этих операций набор данных примет следующий вид (табл. 4).
    Таблица 4. Обработанная выборка данных

    Аge
    Marital1
    Marital2
    Marital3
    Balance
    Housing
    1 1,000 1
    0 0
    1,000 1
    2 0,263 0
    1 0
    0,000 0
    4 0,000 0
    1 0
    0,296 1
    5 0,737 0
    0 1
    0,001 1
    7 0,789 0
    1 0
    0,393 1
    Вопросы для самоконтроля
    1 Приведите примеры непрерывных данных.
    2 Приведите примеры категориальных данных.
    3
    Дайте определения понятию «источник данных».
    4
    Приведите способы классификации источников данных.
    5
    Охарактеризуйте понятие «открытые данные».
    6
    Приведите примеры источников открытых данных.
    7
    Перечислите основные форматы хранения данных.
    8
    Приведите алгоритм построения системы сбора данных на основе программного обеспечения Microsoft Excel.
    9
    Обоснуйте необходимость подготовки данных.
    10
    Охарактеризуйте операцию форматирования данных.
    11
    Приведите пример форматирования данных.
    12
    Охарактеризуйте операцию отбора данных.
    13
    Приведите пример отбора данных
    14
    Охарактеризуйте операцию нормализации данных.
    15
    Приведите пример нормализации данных.
    16
    Охарактеризуйте операцию кодирования данных.
    17
    Приведите пример кодирования данных.

    15
    Лабораторная работа «Сбор и подготовка данных»
    Общие сведения
    Целями работы являются:
    - ознакомление со структурой источников открытых данных, изучение способов хранения и представления данных;
    - приобретение навыка построения системы сбора данных.
    Задачи:
    1 Исследование наборов данных, представленных на портале открытых данных data.gov.ru.
    2
    Исследование наборов данных, представленных на портале data.worldbank.org.
    3 Построение автоматизированной системы сбора данных.
    В качестве инструментального средства используется программное обеспечение Microsoft Excel.
    Варианты задания
    Таблица 5. Задания по части 1 «Исследование портала data.gov.ru»
    Вариант
    Тематика
    Адрес в сети Интернет
    1
    Государство http://data.gov.ru/rubriki/gosudarstvo
    2
    Экономика http://data.gov.ru/rubriki/ekonomika
    3
    Образование http://data.gov.ru/rubriki/education
    4
    Здоровье http://data.gov.ru/rubriki/zdorove
    5
    Экология http://data.gov.ru/rubrics/ecology
    6
    Транспорт http://data.gov.ru/rubriki/transport
    7
    Культура http://data.gov.ru/rubrics/culture
    8
    Спорт http://data.gov.ru/rubrics/sport
    9
    Строительство http://data.gov.ru/rubriki/stroitelstvo
    10
    Досуг и отдых http://data.gov.ru/rubrics/leisure-and-entertainment
    11
    Торговля http://data.gov.ru/rubriki/torgovlya
    12
    Туризм http://data.gov.ru/rubrics/tourism
    13
    Электроника http://data.gov.ru/rubrics/electronics
    14
    Картография http://data.gov.ru/rubrics/cartography
    15
    Безопасность http://data.gov.ru/rubriki/bezopasnost
    16
    Метеоданные http://data.gov.ru/rubrics/weather

    16
    Таблица 6. Задания по части 2 «Исследование портала data.worldbank.org»
    Вариант
    Тематика
    1
    Agriculture & Rural Development
    2
    Aid Effectiveness
    3
    Climate Change
    4
    Economy & Growth
    5
    Education
    6
    Energy & Mining
    7
    Environment
    8
    External Debt
    9
    Financial Sector
    10
    Gender
    11
    Health
    12
    Infrastructure
    13
    Poverty
    14
    Private Sector
    15
    Public Sector
    16
    Science & Technology
    17
    Social Development
    18
    Social Protection & Labor
    19
    Trade
    20
    Urban Development
    Таблица 7. Задания по части 2 «Автоматизированный сбор данных»
    Вариант
    Данные
    1
    Онлайн-табло какого-либо аэропорта/вокзала
    2
    Котировки акций / валют / драгоценных металлов / полезных ископаемых на какой-либо бирже
    3
    По предложению студента
    Порядок выполнения
    1 Исследование наборов данных на портале data.gov.ru:
    1.1
    Выберите вариант задания (табл. 5).
    1.2
    Найдите произвольный набор данных на портале data.gov.ru по тематике, указанной в выбранном варианте задания. Набор должен быть представлен в формате csv и кодировке Windows.

    17 1.3 Загрузите на компьютер найденный набор данных и его паспорт.
    1.4
    Проведите анализ набора данных: определите количество записей и полей в наборе данных.
    2
    Исследование наборов данных на портале data.worldbank.org:
    2.1 Выберите вариант задания (табл. 6).
    2.2
    Найдите произвольный набор данных на портале data.worldbank.org по тематике, указанной в выбранном варианте задания.
    2
    .3 Загрузите на компьютер найденный набор данных в формате
    XLS.
    2.4
    На основе набора данных подготовьте выборку, содержащую значения показателя за все годы для трёх произвольно выбранных стран мира.
    2.5
    На основе подготовленной выборки постройте график, иллюстрирующий изменение показателя со временем для трёх стран мира.
    2.6
    Сохраните файл.
    3
    Построение системы автоматизированной системы сбора данных:
    3
    .1 Выберите вариант задания (табл. 7).
    3.2
    Найдите интернет-сайт, содержащий указанные в задании данные.
    3.3
    Запустите Microsoft Excel.
    3.4
    Выберите пункт «Из Веба» в меню «Данные».
    3.5
    В адресной строке появившегося окна «Создание веб-запроса» наберите адрес найденной ранее веб-страницы.
    3.6
    Выберите таблицу, содержащую искомые данные.
    3.7
    Нажмите кнопку «Импорт».
    3.8
    В появившемся окне «Импорт данных» нажмите кнопку
    «Свойства».
    3.9
    В появившемся окне «Свойства внешнего диапазона» задайте параметр «Период обновления», равный 1 минуте, параметр
    «Обновление при открытии файла» - «Да».
    3.10
    Нажмите кнопку «OK».
    3.11
    В окне «Импорт данных» нажмите кнопку «OK».
    3.12
    Сохраните файл.

    18 4
    Отчет о работе:
    4.1
    Составьте отчет о работе.
    4.2
    Преобразуйте отчет в формат PDF.
    4.3
    Запакуйте отчет (PDF) и все использованные и созданные в работе файлы в архив формата ZIP.
    4.4
    Прикрепите архив в раздел «Отчет по лабораторной работе №1
    (
    сбор и подготовка данных)» курса «Анализ данных» СДО университета [2].
    Содержание отчета
    Отчет должен содержать:
    1
    Титульный лист: наименование работы, вариант задания, ФИО студента, номер учебной группы, дата выполнения работы.
    2 Реферат.
    3 Оглавление.
    4
    Часть 1 «Исследование наборов данных на портале data.gov.ru»:
    4.1
    Задание.
    4.2 Копия экрана с набором данных, открытом в Microsoft Excel.
    4.3
    Описание набора данных согласно нижеприведенной форме
    (табл. 8).
    Таблица 8. Форма описания набора данных
    Показатель
    Значение
    Наименование
    Ссылка
    Формат
    Количество записей
    Количество полей в т.ч. числовых в т.ч. текстовых
    5
    Часть 2 «Исследование наборов данных на портале data.worldbank.org»:
    5.1
    Задание.
    5.2 Копия экрана с набором данных, открытом в Microsoft Excel.
    5.3 График изменения показателя со временем по трем произвольно выбранным странам мира.

    19 6
    Часть 3 «Построение автоматизированной системы сбора данных»:
    6.1 Задание.
    6.2
    Копия экрана с интернет-сайтом, содержащим данные.
    6.3
    Копия экрана Microsoft Excel после импорта данных.
    7
    Список использованных источников:
    7
    .1 Источники данных.
    7
    .2 Нормативные документы.
    Все представленные в отчете таблицы и рисунки должны иметь пояснения. Отчет должен быть оформлен в соответствии с действующими стандартами университета [18, 19].

    20
    РЕГРЕССИОННЫЙ АНАЛИЗ
    Общие сведения
    Предположим, что есть задача определения стоимости некоторой квартиры. Очевидно, что в общем случае стоимость квартир зависит от многих факторов: площади, географического расположения, этажа и т.п. Зная характер этой зависимости, можно оценить (предсказать) стоимость любой квартиры.
    Подобные системы появились на сайтах агентств недвижимости
    (
    рис. 7).
    Рис. 7. Прогнозирование цены на сайте http://www.irn.ru/price
    Предсказание значения зависимой переменной с помощью независимой переменной (независимых переменных) является задачей регрессионного анализа.
    Регрессия относится к типу задач обучения с учителем (Supervised
    Learning в терминах Machine Learning). Предполагается, что имеется некоторая выборка данных, в которой представлены несколько объектов с известными свойствами.
    Решение задачи предсказания включает два этапа: поиск характера зависимости и собственно предсказание (рис. 8).

    21
    Рис. 8. Схема применения регрессии
    Наиболее часто используется линейная функция гипотезы

    =

    =

    +
    +

    +

    =
    m
    j
    j
    j
    m
    m
    x
    x
    x
    x
    x
    h
    0 1
    1 0
    0
    )
    (
    θ
    θ
    θ
    θ

    (1)
    С учетом того, что наборы значений
    θ
    и
    x
    по сути являются векторами, выражение (1) для удобства записывают в виде произведения векторов:
    θ

    = x
    x
    h
    )
    (
    (2)
    В зависимости от характера функции гипотезы регрессию подразделяют на линейную и нелинейную. В зависимости от числа независимых переменных регрессию подразделяют на парную и множественную.
    Примером парной линейной регрессии является задача выявления зависимости стоимости квартир от их площади (табл. 9, рис. 9).
    Таблица 9. Характеристики квартир
    Площадь, кв. м
    Стоимость, млн. руб.
    34 1,3 40 2,9 59 3,0 85 6,5
    Поиск зависимости
    Предсказание
    Набор объектов с известными параметрами
    Параметры новых объектов
    Параметры регрессии
    Новые объекты

    22
    Рис. 9. Регрессия с помощью линейной функции
    Подбор параметров регрессионной функции обычно осуществляется по критерию минимума суммы квадратов отклонений:
    [
    ]
    min
    )
    (
    1 2


    =

    =
    n
    i
    i
    i
    y
    x
    h
    CF
    (3)
    При этом выражение
    [
    ]
    2
    )
    (
    i
    i
    y
    x
    h

    называется функцией штрафа
    (cost function, CF
    ; либо loss function, LF).
    В формулировке (3) задача нахождения параметров регрессионной функции является оптимизационной. Существует два основных подхода к решению задачи регрессии в постановке (1): аналитический и численный. Следует отметить, что решения регрессионной задачи, полученные разными методами, могут различаться.
    Аналитическое решение
    Известно аналитическое решение задачи линейной регрессии в постановке (1):
    y
    X
    X
    X
    T
    T
    1
    )
    (

    =
    θ
    ,
    (4) где X – матрица, содержащая значения независимых переменных,

    23
    y – вектор, содержащий значений зависимых переменных.
    Для вышеприведенного набора данных (табл. 9) матрица Х и вектор y примут вид












    =
    85 1
    59 1
    40 1
    34 1
    X
    ,












    =
    5
    ,
    6 0
    ,
    3 9
    ,
    2 3
    ,
    1
    y
    (5)
    При исходных данных (3) выражение (2) дает результат





    −

    090
    ,
    0 506
    ,
    1
    θ
    Для вычисления выражений вида (2) удобно использовать специализированное математическое программное обеспечение, например Matlab, Octave. Однако широко распространенное ПО
    Microsoft Excel также имеет инструменты для решения подобных задач. Так, для умножения матриц используется функция МУМНОЖ, для транспонирования матриц – функция ТРАНСП, а для нахождения обратной матрицы – МОБР (рис. 10, рис. 11).
    Рис. 10. Вычисления в Microsoft Excel (режим значений)

    24
    Рис. 11. Вычисления в Microsoft Excel (режим формул)
    Данный метод характеризуется следующими особенностями:
    1
    Относительно низкая устойчивость к отдельным сочетаниям данных. Так, дублирование какой-либо строки в наборе данных приведет к сбою в вычислениях при операции нахождения обратной матрицы.
    2 Большая вычислительная сложность. Относительно большие наборы данных, содержащие порядка тысячи и более строк, будут обрабатываться относительно медленно.
    3 Чувствительность к большим значениям. Для наборов данных, в отдельных столбцах которых содержатся большие значения, может потребоваться предварительная нормализация.
    Численное решение
    Для линейной регрессии задача в формулировке (1) имеет единственное решение, что позволяет без каких-либо оговорок применять численные методы. Например, можно использовать метод
    Ньютона либо метод сопряженных градиентов. Оба этих метода представлены в инструменте «Поиск решения» ПО Microsoft Excel.
    Численное решение регрессионной задачи включает следующие шаги:

    25 1) подготовку данных;
    2) задание функции гипотезы, в том числе начальных значений её параметров;
    3
    ) задание целевой функции;
    4
    ) решение оптимизационной задачи каким-либо численным методом.
    Рассмотрим численное решение задачи регрессии на основе данных о стоимости квартир (табл. 9) с помощью программного обеспечения Microsoft Excel.
    Для удобства запишем выражение для функции гипотезы в следующей форме:
    x
    a
    a
    x
    h

    +
    =
    1 0
    )
    (
    (6)
    Также запишем формулировку оптимизационной задачи:
    [
    ]
    min
    )
    (
    4 1
    2 1
    1 0



    +
    =

    =
    i
    i
    y
    x
    a
    a
    CF
    (7)
    Зададим функцию гипотезы и начальные значения коэффициентов функции гипотезы, зададим функцию штрафа (рис. 12).
    Рис. 12. Подготовка к численному решению
    В настройках инструмента «Поиск решения» зададим целевую ячейку, содержащую выражение для функции штрафа, и изменяемые ячейки, содержащие значения коэффициентов функции гипотезы
    (
    рис. 13).

    26
    Рис. 13. Параметры поиска решения
    В результате решения задачи (7) с помощью инструмента «Поиск решения» получим значения коэффициентов функции гипотезы
    5062
    ,
    1 0


    a
    ,
    0905
    ,
    0 1

    a
    График функции гипотезы представляет собой прямую линию
    (
    рис. 14).
    Рис. 14. Прогноз по графику функции гипотезы
    Прогнозирование стоимости квартиры осуществляется с помощью подстановки площади квартиры и найденных коэффициентов

    27 в выражение (6). Например, для квартиры площадью 70 кв. м прогнозная стоимость составит
    83
    ,
    4 70 0905
    ,
    0 5062
    ,
    1


    +

    млн. руб.
    (
    рис. 14).
    Выбор функции гипотезы
    Одной из важных задач регрессионного анализа является задача выбора функции гипотезы. В случае парной регрессии выбор функции гипотезы можно осуществлять визуально по соответствующему графику. В случае множественной регрессии этот подход неприменим.
    Предположим, что имеются данные о стоимости квартир
    (
    табл. 10).
    Таблица 10. Стоимость квартир
    Площадь, кв. м
    Цена, млн. руб.
    18 2,0 30 2,0 42 3,0 50 5,0 80 9,0
    Рассмотрим два варианта решения задачи регрессии с применением линейной функции гипотезы и функции гипотезы, представляющей собой полином четвёртой степени. Опуская подробности решения этой задачи, приведем результаты (табл. 11, рис. 15).
    Таблица 11. Параметры решений для различных функций гипотезы
    Функция гипотезы
    R
    2
    Функция штрафа
    Линейная
    0,935 2,271
    Полином 4-й степени
    1,000 0

    28
    Рис. 15. Регрессия при разных функциях гипотезы
    С точки зрения минимизации функции штрафа из представленных функций следует выбрать полином четвертой степени. С другой стороны, очевидно, что такая функция уже не вполне адекватно отражает тенденцию роста стоимости квартир с возрастанием их площади.
    В терминологии Machine Learning ситуация, иллюстрируемая сплошной линией (рис. 15), соответствующей линейной функции гипотезы, обозначается термином underfitting (недообученность).
    В этом случае общая тенденция уже проявляется, но функция прогноза недостаточно хорошо аппроксимирует имеющийся набор данных.
    Ситуация, иллюстрируемая пунктирной линией (рис. 15), соответствующей полиномиальной функции регрессии, обозначается термином «переобученность» (overfitting). Эта ситуация может быть описана следующим образом: аппроксимация очень хорошо либо идеально описывает выборку данных, но способность к обобщению потеряна.
    Существуют разные способы выбора функции регрессии. Один из способов предполагает выполнение следующих шагов:

    29 1 Разделение случайным образом исходной выборки данных на две части: обучающую, содержащую от 70 до 80% исходных данных, и проверочную, содержащую от 20 до 30% исходных данных.
    2
    Задание нескольких функций гипотезы.
    3
    Выполнение для каждой из функций гипотезы подбора параметров функции по обучающей выборке (минимизация функции штрафа по обучающей выборке) и вычисления функции штрафа по тестовой выборке.
    4
    Выбор функции гипотезы по критерию минимальной функции штрафа по тестовой выборке.
    Рассмотрим пример выбора функции гипотезы на примере данных о площади и стоимости квартир (табл. 12, рис. 16).
    Таблица 12. Стоимость квартир
    Площадь ,кв. м
    Стоимость, млн. руб.
    30 2,8 100 7,0 46 4,9 69 6,5 84 6,7 77 7,2 54 5,9 84 7,4 66 6,0 93 6,7 33 1,9 65 6,9 44 3,5 54 5,3 61 6,0 67 6,1 89 7,8 62 5,6 41 3,6 92 8,4 70 7,4 45 5,1 35 3,7 68 6,7 65 5,5

    30
    Рис. 16. Исходная выборка данных по стоимости квартир
    Разделим исходную выборку данных на обучающую, содержащую
    20 (80%) записей из исходной выборки (табл. 13), и проверочную, содержащую 5 (20%) записей из сходной выборки (табл. 14).
    Таблица 13. Обучающая выборка
    Площадь ,кв. м.
    Стоимость, млн. руб.
    30 2,8 100 7,0 46 4,9 69 6,5 84 6,7 77 7,2 54 5,9 84 7,4 66 6,0 93 6,7 33 1,9 65 6,9 44 3,5 54 5,3 61 6,0 67 6,1 89 7,8 62 5,6 41 3,6

    31
    Таблица 14. Проверочная выборка
    Площадь, кв. м.
    Стоимость, млн. руб.
    70 7,4 45 5,1 35 3,7 68 6,7 65 5,5
    Графическая интерпретация разделения исходной выборки на две приведена ниже (рис. 17).
    Рис. 17. Обучающая и проверочная выборки
    Решение задачи регрессии приводит к следующим показателям
    (
    рис. 18).
    Таким образом, исходя из критерия минимума функции штрафа по проверочной выборке, можно сделать вывод о том, что наиболее подходящей в данном случае является квадратичная функция гипотезы.

    32
    Рис. 18. Зависимость ошибки от степени функции регрессии
    1   2   3   4   5


    написать администратору сайта