Поручиков М.А. Анализ данных. М. А. Поручиков

Название	М. А. Поручиков
Дата	25.02.2021
Размер	1.28 Mb.
Формат файла
Имя файла	Поручиков М.А. Анализ данных.pdf
Тип	Анализ #179239
страница	3 из 5

1 2 3 4 5

Вопросы для самоконтроля
1
Сформулируйте понятие регрессионного анализа.
2 Приведите и охарактеризуйте виды регрессии.
3
Приведите примеры практических задач, требующих применения регрессионного анализа.
4
Перечислите несколько факторов, от которых зависит стоимость: квартиры, автомобиля, авиабилета.
5
Перечислите способы решения задачи регрессии.
6
Дайте определение парной регрессии.
7
Дайте определение множественной регрессии.
8
Приведите порядок решения регрессионной задачи аналитическим методом.
9
Охарактеризуйте особенности решения регрессионной задачи аналитическим методом.
10
Приведите порядок решения регрессионной задачи численными методами.
11
Охарактеризуйте особенности решения регрессионной задачи численными методами.
12
Охарактеризуйте эффекты недообученности и переобучен- ности.
13
Приведите алгоритм подбора функции регрессии.

33
Лабораторная работа «Регрессионный анализ»
Общие сведения
Целью работы является приобретение навыка регрессионного анализа.
В качестве инструментального средства используется программное обеспечение Microsoft Excel.
Исходные данные
Таблица 15. Варианты задания по регрессионному анализу
Вариант
Сфера
Данные
Зависимость
1
Пассажирские авиаперевозки
Дальность и время перелета между разными городами
Время от дальности
2
Пассажирские авиаперевозки
Дальность и стоимость перелета между разными городами экономическим классом
Стоимость от дальности
3
Пассажирские авиаперевозки
Дальность и стоимость перелета между разными городами бизнес- классом
Стоимость от дальности
4
Пассажирские железнодорожные перевозки
Дальность и время поездки между разными городами
Время от дальности
5
Пассажирские железнодорожные перевозки
Дальность и стоимость поездки между разными городами в купе
Стоимость от дальности
6
Пассажирские железнодорожные перевозки
Дальность и стоимость поездки между разными городами в плацкарте
Стоимость от дальности
7
Рынок недвижимости
Площадь и стоимость квартир на первичном рынке
Стоимость от площади
8
Рынок недвижимости
Площадь и стоимость квартир на вторичном рынке
Стоимость от площади
9
Рынок автотранспорта
Стоимость и пробег автомобилей какой-либо марки на вторичном рынке
Стоимость от пробега
10
Рынок автотранспорта
Стоимость и возраст автомобилей какой-либо марки на вторичном рынке
Стоимость от возраста
11
Рынок автотранспорта
Возраст и пробег автомобилей какой-либо марки на вторичном рынке
Пробег от возраста
12
Мировая экономика
Продолжительность жизни и доходы на душу населения стран мира
Продолжительн ость жизни от доходов

34
Таблица 16. Проверочные данные
Вариант
Данные
1
Время полета на 500, 1000 и 3000 км
2
Стоимость перелета на 500, 1000 и 3000 км
3
Стоимость перелета на 500, 1000 и 3000 км
4
Время поездки на 400, 800 и 2000 км
5
Стоимость поездки на 400, 800 и 2000 км
6
Стоимость поездки на 400, 800 и 2000 км
7
Стоимость для площади 30, 50, 100 кв.м.
8
Стоимость для площади 30, 50, 100 кв.м.
9
Стоимость для пробега 20 тыс., 50 тыс., 150 тыс. км.
10
Стоимость для возраста 2 года, 5 лет, 10 лет
11
Пробег для возраста 2 года, 5 лет, 10 лет
12
Продолжительность жизни для доходов 5, 20, 50 тыс. $
Порядок выполнения
1 Подготовка к работе:
1.1
Выберите вариант задания (табл. 15).
1.
2 Найдите источник данных согласно заданию.
1.
3 Запустите Microsoft Excel.
1.4 Создайте лист «Исходные данные» в документе Excel.
1.5
Подготовьте и разместите в листе «Исходные данные» выборку данных согласно выбранному варианту задания. Выборка должна содержать не менее 15 записей.
2 Построение линейной регрессии аналитическим методом:
2.1 Создайте лист «Аналитическое решение».
2.2 Скопируйте выборку данных с листа «Исходные данные» на лист «Аналитическое решение».
2.3
Выполните поиск параметров функции регрессии с помощью нормального уравнения.
2.4 Постройте на одном графике исходные данные и график функции регрессии.
2.5 Создайте прогноз. В качестве аргумента используйте проверочные данные (табл. 16).
3 Построение линейной регрессии численным методом:
3.1 Создайте лист «Численное решение».
3.2 Скопируйте выборку данных с листа «Исходные данные» на лист «Численное решение».

35 3.3 Выполните поиск параметров функции регрессии с помощью инструмента «Поиск решения» ПО Microsoft Excel.
3.4 Постройте на одном графике исходные данные и график функции регрессии.
3.5
Создайте прогноз. В качестве аргумента используйте проверочные данные (табл. 16).
4 Сравнительный анализ:
4.1 Сравните коэффициенты уравнения регрессии, полученные обоими методами.
4.2 Сравните прогнозы, полученные обоими методами.
5 Подбор функции регрессии.
5.1 Разделите исходную выборку на две части: обучающую и проверочную.
5.2 Постройте регрессию по обучающей части выборки для линейной, квадратичной и кубической функций.
5.3
Изобразите на одном графике исходные данные и графики трёх функций регрессии.
5.4
Изобразите на одном графике зависимость функции штрафа для обучающей выборки и функции штрафа для проверочной выборки от степени полинома функции гипотезы.
5.5
Выберите наилучшую функцию регрессии.
6 Отчет о работе:
6.1
Оформите отчет согласно требованиям, приведенным ниже.
6.2
Сохраните отчет в формате PDF.
6.3
Заархивируйте отчет и файлы Excel, использованные в работе.
6.4
Прикрепите архив в раздел «Отчет по лабораторной работе №2
«Регрессионный анализ» курса «Анализ данных» СДО университета
[2].
Требования к отчету
Отчет должен содержать:
1 Титульный лист: наименование работы, вариант задания, ФИО студента, номер учебной группы, дата выполнения работы.
2 Реферат.
3 Оглавление.
4 Задание.
5 Описание выполненной работы:
5.1
Решение задачи регрессии аналитическим методом.

36 5.2
Решение задачи регрессии численными методами.
5.3
Подбор оптимальной функции регрессии.
6 Полученные результаты.
7 Анализ результатов.
8
Список использованных источников:
8.1 Источники данных.
8.2 Нормативные документы.
9 Приложения.
Отчет должен быть оформлен в соответствии с действующими стандартами университета [18, 19].

37
КЛАССИФИКАЦИЯ ДАННЫХ
Общие сведения
Классификация – это процесс определения принадлежности объектов к определенным классам.
Существует много практических задач классификации.
В промышленности при оценке качества продукции возникает задача подразделения изделий на годные и бракованные. В банковском секторе при выдаче кредитов возникает задача подразделения заемщиков на кредитоспособных и некредитоспособных. В медицине при оценке состояния здоровья возникает задача постановки диагноза.
Как и регрессия, классификация относится к типу задач обучения с учителем (Supervised Learning в терминах Machine Learning).
Предполагается, что имеется некоторая выборка данных, в которой представлены объекты нескольких классов. При этом выборка содержит как свойства объектов, так и признак принадлежности объекта к какому-либо классу.
Применение классификации производится в два этапа. На первом этапе выполняется обучение классификатора на некотором наборе данных, а на втором этапе – непосредственная классификация новых объектов (рис. 19).
Рис. 19. Схема применения классификации
Обучение классификатора
Классификация
Набор классифицированных объектов
Классы объектов
Параметры классификатора
Новые объекты

38
Различают бинарную и множественную классификацию. Бинарная классификация предполагает наличие двух классов, множественная – трех и более классов.
Классификация выполняется с помощью специальных методов
(алгоритмов).
Известно большое количество алгоритмов классификации. Так, в работе [20] проведены исследования 179 алгоритмов.
Бинарная классификация
Задачей бинарной классификации является определение принадлежности некоего объекта к одному из двух возможных классов. Например:
- является ли сообщение электронной почты «нормальным» или представляет собой спам;
- здоров или болен пациент;
- является ли заемщик банка надежным или ненадежным;
- качественная или бракованная деталь.
Наиболее известными методами бинарной классификации являются:
- логистическая регрессия (Logistic Regression);
-
«наивный» байесовский классификатор (Naive Bayes Classifier);
- метод опорных векторов (Support Vector Machine, SVM);
- нейронная сеть (Neural Network).
Логистическая регрессия
Логистическая регрессия – один из методов бинарной классификации данных.
Алгоритм применения логистической регрессии:
1 Подготовка обучающей выборки – кодирование классов числами.
2 Задание функций штрафа.
3 Задание целевой функции.
4 Задание начальных значений коэффициентам функции.
5 Численное решение:
θ
⋅
= x
z
;
(8)

39
z
j
e
x
h
−
+
=
1 1
)
(
;
(9)
)
ln(
)
1
ln(
)
1
(
)
,
(
j
j
j
j
j
j
h
y
h
y
y
h
CF
⋅
−
−
⋅
−
−
=
(10)
В ряде случаев использование численных методов может приводить к ошибкам вычислений, поэтому иногда удобнее использовать формулу (10) в другом варианте:



=
−
=
−
−
=
1
),
ln(
0
),
1
ln(
)
,
(
j
j
j
j
j
j
y
h
y
h
y
h
CF
(11)
Оптимизационная задача по-прежнему формулируется как задача минимзации функции штрафа:
∑
→
=
j
j
j
y
h
CF
CF
min
)
,
(
(12)
Рассмотрим численное решение задачи логистической регрессии с помощью программного обеспечения Microsoft Excel:
1 В соответствии с предложенным выше алгоритмом представим исходные данные и расчетные формулы (рис. 20; 21).
Рис. 20. Логистическая регрессия в Excel (режим значений)

40
Рис. 21. Логистическая регрессия в Excel (режим формул)
2 Выполним численное решение с помощью инструмента «Поиск решения» (рис. 22).
Рис. 22. Параметры поиска решения
В результате численного решения будут определены параметры функции линейного разделения. Визуальная проверка показывает корректность разделения двух классов (рис. 23).

41
Рис. 23. Визуальное представление классов
Зачастую в реальных задачах бинарной классификации данные не могут быть разделены на два класса линейной функцией гипотезы
(
рис. 24).
Рис. 24. Проблема линейной разделимости
Возможны следующие способы решения этой проблемы:
- применение нелинейной функции гипотезы;
- принципиальная замена логистической регрессии другим методом, например, нейросетевым классификатором.

42
Качество классификации
Очевидно, что при бинарной классификации возможны четыре сочетания реального класса каждого из объектов выборки данных и предположения алгоритма о классе объекта (рис. 25).
Правильно классифицированные алгоритмом объекты относятся либо к группе «true positives», либо к группе «true negatives».
Неправильно классифицированные алгоритмом объекты относятся либо к группе «false positives», либо к группе «false negatives».
Реальность
+
-
Предположение алгоритма
+
True positives
(TP)
False positives
(FP)
Ошибка I рода
-
False negatives
(FN)
Ошибка II рода true negatives
(TN)
Рис. 25. Сочетания при бинарной классификации
Реальные алгоритмы допускают ошибки классификации двух видов: ошибки I рода и ошибки II рода. Ошибки классификации объектов могут привести к последующим неправильным решениям и нежелательным последствиям (рис. 26).
Реальность
Нормальное письмо
Письмо с вирусом
Предположение алгоритма
Нормальное письмо
Письмо пропущено в почтовый ящик
Письмо пропущено в почтовый ящик.
Последствие: заражение компьютера вирусом
Письмо с вирусом
Письмо отброшено.
Последствие: пользователь не получит важную информацию
Письмо отброшено
Рис. 26. Последствия ошибок классификации

43
Существует несколько методов оценки качества классификации.
Одним из методов является оценка с помощью F-критерия, выполняемая в четыре этапа:
1 Подсчет количества каждого сочетания случаев.
2 Расчет точности (precision)
FP
TP
TP
P
+
=
(13)
3
Расчет чувствительности (recall)
FN
TP
TP
R
+
=
(14)
4
Расчет F-критерия
R
P
R
P
F
+
⋅
⋅
=
2
(15)
Предположим, что в электронный почтовый ящик пришло
10 сообщений, часть из которых является нормальными, а часть – спамом (табл. 17).
Таблица 17. Сообщения электронной почты
№
Вид сообщения
«Мнение» антивируса
1 письмо письмо
2 спам письмо
3 письмо спам
4 спам письмо
5 письмо спам
6 письмо письмо
7 спам спам
8 письмо письмо
9 письмо спам
10 письмо письмо
Рассчитаем количество всех четырех сочетаний (табл. 18).

44
Таблица 18. Сочетания классификации
Реальность письмо
Спам
«Мнение» антивируса письмо
4 2 спам
3 1
В соответствии с формулами (13) - (15)
667
,
0 2
4 4
≈
+
=
P
;
571
,
0 3
4 4
≈
+
=
R
;
615
,
0 571
,
0 667
,
0 571
,
0 667
,
0 2
≈
+
⋅
⋅
=
F
Для идеального алгоритма, не совершающего ошибок,
0
=
F
Для проверки качества классификатора можно использовать репозиторий открытых наборов данных [21].
Множественная классификация
Задачей множественной классификации является определение принадлежности некоего объекта к одному из нескольких (трех или более) возможных классов, например постановка диагноза пациенту.
Наиболее известными методами множественной классификации являются:
- метод «один против всех» (One vs All);
- нейронная сеть (Neural Network).
Искусственная нейронная сеть (ИНС) – математическая модель нервной системы живого организма. Было обнаружено, что свойства
ИНС позволяют использовать их для решения широкого круга прикладных задач, в том числе задач классификации.
Исторически первой была искусственная нейронная сеть под названием «перцептрон Розенблатта» (1957).
В общем случае ИНС имеет несколько входов и выходов.
На входы подаются некоторые значения (сигналы). Результатом работы нейронной сети являются значения (сигналы) на её выходе
(
рис. 27).

45
Рис. 27. Модель нейронной сети
Таким образом, ИНС можно рассматривать как векторную функцию векторного аргумента:
)
(x
h
y
=
(16)
Нейронная сеть состоит из элементов – нейронов, связанных друг с другом (рис. 28).
Рис. 28. Структура нейронной сети
Как правило, нейроны объединяются в группы, называемые слоями. Различают три вида слоёв: входной, выходной и скрытый.
Так, выше изображена нейронная сеть, содержащая 3 нейрона во входном слое, 4 нейрона в скрытом слое и 2 нейрона во входном слое.
Нейрон является базовым составляющим элементом нейронной сети. В общем случае нейрон имеет несколько входов и один выход (рис.29).
:
:
1
x
2
x
n
x
)
(x
f
y
=
1
y
2
y
n
y

46
Рис. 29. Модель нейрона
Нейрон можно рассматривать как скалярную функцию векторного аргумента:
)
(x
f
y
=
(17)
Предполагается, что каждому входу нейрона соответствует некоторый весовой коэффициент (рис. 30).
Значения на входе нейрона можно представить в виде вектора
{
}
n
x
x
x
x
,
,
,
2 1

=
,
(18) а весовые коэффициенты – в виде вектора
{
}
n
w
w
w
w
,
,
,
2 1

=
(19)
Рис. 30. Структура нейрона
1
x
2
x
n
x
y
∑
)
(z
f
a
1
w
2
w
n
w
1 1
w
x
⋅
2 2
w
x
⋅
n
n
w
x
⋅
w
x
z
⋅
=
:
:
1
x
2
x
n
x
y
)
(x
f
y
=
:

47
Вычисление значения на выходе нейрона осуществляется в два этапа. На первом этапе рассчитывается взвешенная сумма
∑
=
⋅
=
⋅
=
⋅
+
+
⋅
+
⋅
=
n
i
i
i
n
n
w
x
w
x
w
x
w
x
w
x
z
1 2
2 1
1

(20)
На втором этапе рассчитывается значение функции активации
)
(z
f
a
. Наиболее часто применяется логистическая (сигмоидная) функция активации
z
a
e
z
f
−
+
=
1 1
)
(
(21)
Свойства функции нейронной сети определяются:
- структурой нейронной сети, то есть характером взаимосвязей между нейронами;
- свойствами нейронов: их весовыми коэффициентами и функциями активации.
Как и логистическая регрессия, нейронная сеть приобретает свои свойства в результате так называемого «обучения». Обучение ИНС –
процесс подстройки весовых коэффициентов нейронов ИНС.
Обучение производится на так называемой «обучающей выборке», представляющей собой набор «вопросов» и соответствующих
«правильных ответов».
Качество обучения определяется степенью соответствия ответов сети («гипотез») «правильным ответам». Показателем качества обучения является значение функции штрафа, определяемой взвешенной суммой квадратов отклонений:
∑
=
−
=
n
i
j
i
j
i
j
y
x
h
n
CF
1 2
)
(
)
(
)
)
(
(
1
;
(22)
∑
=
=
m
j
j
CF
m
CF
1 1
(23)
В процессе обучения весовые коэффициенты нейронов ИНС изменяются согласно определенным правилам.
Обучение производится шагами (эпохами). На одном шаге (в течение одной

48 эпохи) происходит одно обновление коэффициентов W. Обучение заканчивается в момент, когда значение функции штрафа достигает заданного пользователем порога. Также обучение может быть остановлено, если был превышен заданный лимит числа шагов.
Обучение сети производится с помощью специальных алгоритмов.
В основе большинства алгоритмов лежат градиентные методы обучения. Исторически первым был так называемый «алгоритм обратного распространения ошибки» (error backpropagation).
В дальнейшем были предложены еще несколько алгоритмов, наиболее известными из которых являются QPROP и RPROP.
В ходе обучения возможно проявление двух нежелательных эффектов: эффекта недообученности и эффекта переобученности.
Эффект недообученности
Эффект недообученности, как в регрессионном анализе, проявляется в виде недостаточного качества классификации объектов из обучающей выборки. Графически это иллюстрируется как приближение функции штрафа к некоему постоянному значению
(
рис. 31).
Рис. 31. Функция штрафа при недообученности

49
Для избежания эффекта недообученности можно использовать следующие способы:
1) увеличение числа нейронов в скрытом слое ИНС;
2) увеличение числа скрытых слоев.
Эффект переобученности
Можно выделить три признака переобучения:
1) относительно быстрое убывание функции штрафа в процессе обучения;
2) нулевое или близкое к нулю значение функции штрафа;
3) абсолютно точная при предъявлении объектов из обучающей выборки.
Одним из признаков переобученности является нулевое значение функции штрафа после обучения ИНС (рис. 32).
Рис. 32. Функция штрафа при переобучении
Переобучение приводит к потере классификатором способности к обобщению. Для избежания эффекта переобученности можно использовать следующие способы:
1) уменьшение числа нейронов в скрытом слое ИНС;
2) уменьшение числа скрытых слоев.

50
Программное обеспечение image_recognition
Данное программное обеспечение предназначено для классификации визуальных образов. В основе ПО лежит трехслойная нейронная сеть, размеры слоев которой задаются пользователем.
Предполагается, что на вход сети подается монохромное изображение, при этом на выходе сети вычисляется вероятность принадлежности изображения к тому или иному классу (образу).
Интерфейс программы содержит следующие элементы (рис. 33):
- панель «Создание сети»;
- панель «Описание классов»;
- панель «Обучение сети»;
- панель «Проверка сети».
Рис. 33. Интерфейс программы image_recognition
Панель «Создание сети»
Кнопка «Создать» создает трехслойную НС заданной структуры.
При этом размер входного слоя сети определяется произведением параметров «Ширина образа» и «Высота образа», размер скрытого слоя определяется значением параметра «Скрытый слой», размер выходного слоя определяется значением параметра «Число классов».

51
Кнопка «Открыть» позволяет загрузить в программу описание ранее созданной нейронной сети из файла с расширением *.net.
Кнопка «Сохранить» позволяет сохранить нейронную сеть в файл с расширением *.net.
Панель «Описание классов»
Кнопка «Открыть» позволяет загрузить в программу ранее созданное описание классов из файла с расширением *.txt.
Кнопка «Сохранить» позволяет сохранить описание классов в файл с расширением *.txt.
Таблица предназначена для текстового описания классов.
Панель «Обучение сети»
Кнопка «Открыть» предназначена для загрузки файла с обучающей выборкой.
Кнопка «Учить» предназначена для обучения сети в течение нескольких шагов, при этом число шагов определяется параметром
«Число шагов».
Кнопка «Сбросить» задает произвольные значения весовым коэффициентам нейронов сети.
Кнопка «Сохранить график» сохраняет в файл график кривой обучения.
График кривой обучения показывает изменение ошибки в процессе обучения сети.
Параметр «Эпоха» показывает число сделанных шагов обучения.
Параметр «Ошибка» показывает текущую ошибку.
Панель «Проверка сети»
Изображение «Образ» предназначено для создания проверочного образа, подающегося на вход сети. Размеры образа определяются параметрами «Ширина образа» и «Высота образа», заданными ранее в ходе создания сети.
Образ создается путем кликов по соответствующим элементам образа.
Диаграмма «Реакция» отображает выход сети.
Кнопка «Сохранить» сохраняет изображение образа и диаграмму с реакцией в соответствующие файлы.

52
Пример применения
Рассмотрим способ применения ПО image_recognition на примере задачи классификации визуальных образов стрелок (рис. 34).
Рис. 34. Входные и выходные данные
Предположим, что входными образами являются изображения размером 5x5 элементов. В качестве обучающей выборки предлагается использовать образы четырех стрелок (рис. 35).
Рис. 35. Образы обучающей выборки
Для использования классификатора каждый известный образ должен быть закодирован численными значениями (рис. 36).

53
Рис. 36. Численное представление образа
Обучающая выборка для программы
image_recognition представлена в текстовом файле в специальном формате (рис. 37).
Рис. 37. Обучающая выборка

1 2 3 4 5