Поручиков М.А. Анализ данных. М. А. Поручиков

Название	М. А. Поручиков
Анкор	Assistant
Дата	17.11.2021
Размер	1.28 Mb.
Формат файла
Имя файла	Поручиков М.А. Анализ данных.pdf
Тип	Анализ #274482
страница	4 из 5

1 2 3 4 5

Вопросы для самоконтроля
1
Охарактеризуйте понятие классификации данных.
2
Виды классификации данных.
3 Перечислите методы классификации данных.
4
Приведите пример практического применения классификации.
5 Приведите алгоритм применения логистической регрессии.
6 Запишите функции штрафа при логистической регрессии.
7 Поясните суть проблемы линейного разделения классов.
8
Дайте определение ошибки классификации первого рода.
9
Дайте определение ошибки классификации второго рода.
10
Приведите примеры ошибок классификации и возможных последствий.
11
Приведите алгоритм оценки качества классификации по F1- критерию.
12
Запишите формулу расчета точности (precision).
13
Запишите формулу расчета чувствительности (recall).
14
Запишите формулу расчета F-критерия.
15
Охарактеризуйте понятие «искусственная нейронная сеть».
16
Дайте определение понятию «нейрон».
17
Охарактеризуйте эффекты обучения искусственной нейронной сети.
18
Изобразите кривую обучения, иллюстрирующую эффект недообученности ИНС.
19
Изобразите кривую обучения, иллюстрирующую эффект переообученности ИНС.

55
Лабораторная работа «Бинарная классификация»
Общие сведения
Целью работы является приобретение навыка бинарной классификации данных на основе логистической регрессии.
В качестве инструментального средства используется программное обеспечение Microsoft Excel.
Задание
Вариант 1. При проверке медицинской диагностической системы, основанной на бинарном классификаторе, получены следующие результаты (табл. 19).
Таблица 19. Экспериментальная проверка диагностической системы
№
Состояние пациента
Предположение классификатора
1 здоров болен
2 болен болен
3 здоров здоров
4 болен здоров
5 болен болен
6 здоров здоров
7 здоров болен
8 болен здоров
9 здоров здоров
10 болен болен
Вариант 2. При испытании антивируса, основанного на бинарном классификаторе, получены следующие результаты (табл. 20).
Таблица 20. Экспериментальная проверка антивируса
№
Наличие вируса
Предположение классификатора
1 есть есть
2 нет нет
3 нет нет
4 есть есть
5 нет нет
6 есть нет
7 есть есть
8 нет нет
9 нет нет
10 нет нет

56
Порядок выполнения
1 Подготовка:
1.1 Выберите вариант задание (см. с. 55).
1.2 Подготовьте выборку данных в ПО Microsoft Excel.
1.3 Постройте диаграмму, отображающую выборку данных.
2
Классификация:
2.1
Задайте целевую функцию.
2.2 Определите коэффициенты функции гипотезы с помощью инструмента «Поиск решения».
2.3 Рассчитайте значения точности, чувствительности, F-критерия.
3 Сделайте вывод об эффективности этого классификатора.
4
Отчет о работе:
4.1
Составьте отчет о работе.
4.2
Преобразуйте отчет в формат PDF.
4.3
Запакуйте отчет (PDF) и файл с данными (XLS) в один архив формата ZIP.
4.4
Прикрепите архив в раздел «Отчет по лабораторной работе №3
(бинарная классификация)» курса «Анализ данных» СДО университета [2].
Содержание отчета
Отчет должен содержать:
1 Титульный лист: наименование работы, вариант задания, ФИО студента, номер учебной группы, дата выполнения работы.
2 Реферат.
3 Оглавление.
4 Задание.
5
Описание выполненной работы.
6
Полученные результаты.
7
Анализ результатов.
8
Список использованных источников:
8.1 Источники данных.
8.2 Нормативные документы.
9
Приложения.
Отчет должен быть оформлен в соответствии с действующими стандартами университета [18, 19].

57
Лабораторная работа «Множественная классификация»
Общие сведения
Целью работы является приобретение навыка множественной классификации данных.
Задачи:
1 Подготовка обучающей выборки.
2 Обучение классификатора.
3 Проверка классификатора.
В качестве инструментального средства используется программное обеспечение image_recognition. Описание данного программного обеспечения приведено выше (с. 50).
Исходные данные
Таблица 21. Образы
Вариант
Образы
1
Арабские цифры
2
Римские цифры
3
Заглавные буквы кириллицы
4
Строчные буквы кириллицы
5
Заглавные буквы латиницы
6
Строчные буквы латиницы
7
Заглавные греческие буквы
8
Строчные греческие буквы
9
Математические символы
10
Смайлики
11
Дорожные знаки
12
Иконки социальных сетей
13
Логотипы автомобилей
Число распознаваемых образов – не менее пяти.
Порядок выполнения
1
Подготовка.
1.1
Загрузите архивный файл image_recognition.zip, содержащий программное обеспечение, с сайта курса.
1.2
Распакуйте всё содержимое архивного файла в какую-либо папку.
1.3
Выберите вариант задания (табл. 21).

58 1.4
Выберите размер образа, то есть его высоту и ширину.
Примеры образов приведены ниже (рис. 38).
Рис. 38. Примеры образов
1.5
Выберите количество образов.
1.6
Создайте файл с обучающей выборкой.
2
Создание нейронной сети:
2.1
Запустите программу image_recognition.exe.
2.2
Задайте размеры изображения.
2.3
Задайте число классов.
2.4
Задайте число нейронов в скрытом слое, равное единице.
2.5
Обучите сеть.
2.6
Проверьте распознавание всех известных образов.
2.7
Изменяя размер скрытого слоя, подберите минимальный размер скрытого слоя сети, при котором сеть уверенно распознает образы из обучающей выборки.
3
Проверка:
3.1
Проверьте распознавание всех известных образов.
3.2
Проверьте распознавание неизвестных образов. Например, если обучающая выборка содержит символ интеграла (рис. 39, а), то можно проверить неизвестный, но похожий образ (рис. 39, б). a) цифра «1» б) символ интеграла
3x5 5x7

59
Рис. 39. Примеры образов
3.3
Проведите анализ полученных результатов.
4
Продемонстрируйте преподавателю полученные результаты.
При наличии замечаний проведите повторные эксперименты.
5
Отчет по работе:
5.1
Составьте отчет.
5.2
Преобразуйте отчет в формат PDF.
5.3
Создайте архив в формате ZIP, содержащий 1) отчет (PDF); 2) файл с обучающей выборкой (*.data); 3) файл со структурой сети
(*.net
); 4) файл с описанием классов (*.txt); 5) файл с описанием размера изображения (*.size) в один архив.
5.4
Прикрепите архив в раздел «Отчет по лабораторной работе
№4» (множественная классификация) курса «Анализ данных» [2].
5.5
При наличии замечаний от преподавателя скорректируйте отчет.
Требования к отчету
Отчет должен содержать:
1 Титульный лист: наименование работы, вариант задания, ФИО студента, номер учебной группы, дата выполнения работы.
2 Реферат.
3
Оглавление.
4
Задание.
5
Описание образов:
5.1
Размер образа и число классов. б) неизвестный образ
5x7 а) известный образ
5x7

60 5.2
Изображения образов.
5.3
Обучающая выборка.
6
Описание нейронной сети:
6.1
Структура сети (число нейронов в слоях).
6.2
Число шагов обучения.
6.3
Достигнутое значение функции штрафа.
6.4
График функции штрафа (изменение значения функции штрафа в процессе обучения сети).
7
Результаты:
7.1
Реакция сети на все известные (т.е. имеющиеся в обучающей выборке) образы.
7.2
Реакция сети на неизвестные образы.
8
Анализ результатов.
9
Список использованных источников:
9
.1 Источники данных.
9
.2 Нормативные документы.
10
Приложения.
Отчет должен быть оформлен в соответствии с действующими стандартами университета [18, 19].

61
КЛАСТЕРНЫЙ АНАЛИЗ
Общие сведения
Кластерный анализ – (кластеризация) выявление групп (кластеров) объектов в выборке данных.
В отличие от регрессии и классификации, кластеризация относится к типу задач обучения без учителя (Unsupervised Learning в терминах Machine Learning). В отличие от классификации, в кластерном анализе не используется выборка ранее классифицированных объектов. Принятие решения о принадлежности объекта к той или иной группе принимается на основе свойств объектов (рис. 40).
Рис. 40. Схема кластерного анализа
Выборка данных в общем случае представляет собой таблицу
(
табл. 22).
Таблица 22. Шаблон набора данных
Наименование объекта
Свойство 1
Свойство 2
…
Свойство M
Объект 1
Объект 2
…
Объект N
Метод к-средних
Существует большое число методов кластерного анализа [22, 23], а наиболее известным является метод (алгоритм) к-средних.
Принцип: расчет средневзвешенного расстояния в нормированном эвклидовом пространстве свойств объектов (рис. 41).
Кластерный анализ
Набор неклассифицированных объектов
Классы объектов

62
Рис. 41. Метод к-средних
Метод к-средних представляет собой следующую последовательность операций:
1 Пользователь задает количество кластеров.
2 Производится первоначальное случайное распределение объектов из выборки данных по кластерам.
3 Вычисляются коодинаты центров кластеров.
4 Вычисляются расстояния от каждого объекта до центров соответствущих кластеров.
5 Рассчитывается функция штрафа – сумма всех расстояний.
6 Каждый из объектов «прикрепляется» к тому кластеру, расстояние до центра которого наименьшее.

63
Шаги 3 – 6 повторяются до тех пор, пока не перестанут изменяться координаты центров кластеров.
Особенностью метода к-средних является разный результат выполнения алгоритма при повторном проведении кластерного анализа одной и той же выборки данных, поэтому рекомендуется многократный повтор кластеризации и выбор наилучшего результата.
Рассмотрим пример использования метода к-средних. Пусть имеется набор объектов, имеющих два свойства (табл. 23).
Таблица 23. Объекты и их свойства
Объект
Свойство 1
Свойство 2 1
10 7
2 12 5
3 35 2
4 45 4
Проведем нормализацию исходных данных, т.е. приведение их к диапазону 0..1 по каждому свойству (измерению) (табл. 24).
Таблица 24. Объекты и их нормализованные свойства
Объект
Свойство 1
Свойство 2 1
0,00 1,00 2
0,06 0,60 3
0,71 0,00 4
1,00 0,40
Последовательно применив алгоритм метода k-средних, получим следующие результаты (табл. 25).
Таблица 25. Варианты распределения объектов по кластерам
Шаг
Распределение по кластерам
R
2
Объект 1
Объект 2
Объект 3
Объект 4 1
1 1
1 2
0,822 2
1 1
2 1
0,817 3
1 2
1 1
1,037 4
2 1
1 1
0,654 5
1 2
2 1
1,076 6
1 1
2 2
0,202

64
Шаг 6 иллюстрирует следующая диаграмма (рис. 42). При этом найденное на этом шаге значение R
2
является минимальным, что свидетельствует о наилучшем распределении объектов по кластерам на этом шаге.
Рис. 42. Вариант распределения объектов по кластерам
Таким образом, найдено следующее оптимальное распределение объектов по кластерам (табл. 26).
Таблица 26. Распределение объектов по кластерам
Объект
Свойство 1
Свойство 2
Кластер
1 10 7
1 2
12 5
1 3
35 2
2 4
45 4
2
Метод к-средних не дает ответа на вопрос о количестве кластеров в выборке данных. Для определения количества кластеров можно воспользоваться так называемым методом локтя (Elbow Method).
Метод локтя предполагает выполнение следующих шагов:
0 1
2 3
4 5
6 7
8 9
0 10 20 30 40 50
Сво
йс
тво
2
Свойство 1

65 1 Выполняется кластеризация методом к-средних, при этом рассчитывается и записывается значение функции штрафа.
2 Строится график зависимости функции штрафа от заданного числа кластеров.
3
В качестве решения выбирается число кластеров, при котором происходит наибольший перегиб графика.
Программное обеспечение kmeans
Метод к-средних реализован в программном обеспечении kmeans.
ПО kmeans предназначено для кластеризации набора объектов, имеющих два свойства и представлено в виде исполняемого файла для
ОС Windows. Программное обеспечение имеет однооконный интерфейс (рис. 43).
Рис. 43. Интерфейс программного обеспечения k-means
Основные функции управления реализованы в панелях «Исходные данные» и «Управление экспериментом» (рис. 44).
Панель «Исходные данные»:
- кнопка «Загрузить данные» предназначена для загрузки исходных данных для кластерного анализа;
- параметр «Число объектов» показывает количество объектов в загруженном файле данных;

66
- показатель «Число кластеров» предназначен для задания числа кластеров, по которым будет производиться разбивка объектов.
Панель «Управление экспериментом»:
- выключатель «Ограничение по времени»;
- кнопка «Старт» предназначена для запуска процедуры кластеризации. Кластеризация будет происходить, пока не перебраны все возможные варианты или не закончилось время, отпущенное на эксперимент;
- показатель «Время эксперимента» показывает длительность эксперимента; показатель «Число вариантов» показывает сколько вариантов разбиения объектов по кластерам было исследовано на данный момент;
- показатель «Варианты распределения по кластерам» показывает число вариантов распределения объектов по кластерам.
Рис. 44. Панели «Исходные данные» и «Управление экспериментом»
График функции штрафа (рис. 45) показывает изменение функции штрафа со временем в процессе кластеризации.
Диаграмма распределения по кластерам (рис. 46) показывает расположение объектов в декартовой системе координат и принадлежность объекта к тому или иному кластеру.
Горизонтальной оси соответствует первый показатель из исходного

67 файла данных, вертикальной оси – второй. Отображение диаграммы регулируется следующими элементами управления:
Рис. 45. График функции штрафа
- выключатель «Наименования объектов» позволяет подписать объекты на диаграмме;
- выключатель «Лучи “центры-объекты”» позволяет отобразить лучи от центра кластеров до всех объектов кластера;
- выключатель «Центры кластеров» позволяет отобразить условные центры кластеров;
- выключатель «Граница» позволяет отобразить условные границы кластеров. Граница представляет собой ломаную линию, объединяющую все объекты каждого кластера;
- кнопка «Сохранить диаграмму» записывает диаграмму в графический файл в формате PNG;
- кнопка «Сохранить кластеры» создает файл, cодержащий номера кластеров, координаты их центров и количество объектов в кластерах.

68
Рис. 46. Диаграмма распределения по кластерам
Анализ данных с использованием ПО kmeans проводится по следующей схеме (рис. 47).
Рис. 47. Схема эксперимента
Исходные данные должны быть представлены в файле в формате
CSV
«Текст, разделенный». В файле должно быть три столбца:
1
Наименования объектов.
2
Значение первого свойства.
Параметры эксперимента
Исходные данные
Программное обеспечение im_rec.exe
Классифицированные объекты
Параметры классов

69 3
Значение второго свойства.
Первая строка файла должна содержать подписи свойств объектов.
Подготовку исходных данных удобно производить в Microsoft Excel
(
рис. 48). После подготовки данных файл необходимо сохранить в формате CSV (разделители – запятые).
Рис. 48. Представление исходных данных в Microsoft Excel
Убедиться в корректности подготовленного файла можно, открыв его в блокноте Windows (рис. 49).
Рис. 49. Представление исходных данных в блокноте Windows
Вопросы для самоконтроля
1
Дайте определение понятия «кластер».
2
Дайте определение понятия «кластеризация».
3 Охарактеризуйте два любых алгоритма кластеризации.
4
Назовите входные данные алгоритма к-средних.
5
Назовите выходные данные алгоритма к-средних.
6
Приведите последовательность шагов в алгоритме к-средних.
7 Приведите порядок кластерного анализа с помощью ПО kmeans.

70
Лабораторная работа «Кластерный анализ»
Общие сведения
Целью работы является приобретение навыка кластерного анализа на основе метода к-средних.
В качестве исходных данных используются статистические данные Всемирного банка. В качестве инструментального средства для проведения экспериментов используется программное обеспечение kmeans. Описание данного программного обеспечения приведено выше (см. с. 65).
Исходные данные
Таблица 27. Исходные данные для кластерного анализа
Вариант
Показатели
Год
1 1. Railways, goods transported (million ton-km).
2. Air transport, freight (million ton-km).
2008 2
1. Railways, goods transported (million ton-km)
2. Roads, goods transported (million ton-km)
2007 3
1. Air transport, freight (million ton-km)
2. Roads, goods transported (million ton-km)
2006 4
1. Railways, goods transported (million ton-km)
2. Railways, passengers carried (million passenger-km)
2009 5
1. Air transport, freight (million ton-km)
2. Air transport, passengers carried
2005 6
1. Roads, goods transported (million ton-km)
2. Roads, passengers carried (million passenger-km)
2002 7
1. Roads, total network (km)
2. Rail lines (total route-km)
2002 8
1. Internet users (per 100 people)
2. Mobile cellular subscriptions (per 100 people)
2011 9
1. Internet users (per 100 people)
2. Passenger cars (per 1,000 people)
2010 10 1. Mobile cellular subscriptions (per 100 people)
2. Passenger cars (per 1,000 people)
2009 11 1. GDP per capita (current US$)
2. Passenger cars (per 1,000 people)
2008 12 1. GDP per capita (current US$)
2. Internet users (per 100 people)
2007 13 1. GDP per capita (current US$)
2. Life expectancy at birth, total (years)
2011 14 1. GDP per capita (current US$)
2. Physicians (per 1,000 people)
2010

71
Вариант
Показатели
Год
15 1. Access to electricity (% of population)
2. Life expectancy at birth, total (years)
2009 16 1. Average precipitation in depth (mm per year)
2. Cereal yield (kg per hectare)
2011 17 1. GDP per capita (current US$)
2. Cereal yield (kg per hectare)
2011 18 1. GDP per capita (current US$)
2. GDP per unit of energy use (constant 2005 PPP $ per kg of oil equivalent)
2010 19 1. Researchers in R&D (per million people)
2. GDP per unit of energy use (constant 2005 PPP $ per kg of oil equivalent)
2008 20 1. Agricultural land (sq. km)
2. Land area (sq. km)
2011 21 1. Forest area (sq. km)
2. Land area (sq. km)
2010 22 1. Population, total
2. Land area (sq. km)
2009 23 1. Health expenditure, total (% of GDP)
2. Military expenditure (% of GDP)
2010 24 1. High-technology exports (% of manufactured exports)
2. GDP per capita (current US$)
2010 25 1. Hospital beds (per 1,000 people)
2. Life expectancy at birth, total (years)
2005
Порядок выполнения
1 Подготовка:
1.1 Выберите задание (табл. 27).
1.2
Загрузите программу kmeans из курса «Анализ данных» СДО университета [2].
1.3
Подготовьте исходные данные для кластеризации:
1.3.1
На сайте Всемирного банка [16] найдите данные по странам мира согласно заданию.
1.3.2
Загрузите соответствующие файлы на компьютер (Download data – Excel file).
1.3.3
Соберите данные из двух загруженных файлов в один файл в формате CSV. Файл должен содержать три столбца: название страны, показатель №1, показатель №2. Схема подготовки файла с исходными данными приведена ниже (рис. 50).
Окончание табл. 27

72
Рис. 50. Схема подготовки исходных данных
2
Эксперименты:
2.1
Запустите программу kmeans.
2.2
Установите количество кластеров, равное единице.
2.3
Выберите файл с исходными данными (кнопка «Загрузить данные»).
2.4
Нажмите кнопку «Старт».
2.5
Нажимая соответствующие кнопки, сохраните диаграмму с кривой обучения, диаграмму кластеров и файл с кластеризованными объектами.
2.6
Запишите номер эксперимента и значение функции штрафа в таблицу экспериментальных данных (табл. 28).
Таблица 28. Форма журнала экспериментальных данных
Номер эксперимента
Число кластеров
Функция штрафа
Сountry code
2004 2005 2006
CHN
1 4
7
RUS
2 5
8
UKR
3 6
9
Country code
Ind1 2005
Ind2 2005
CHN
4 14
RUS
5 15
UKR
6 16
Сountry code
2004 2005 2006
CHN
11 14 17
RUS
12 15 18
UKR
13 16 19
Indicator1.xls
Indicator2.xls
Data_2d.csv

73 2.7
Повторите эксперимент (шаги 2.2-2.6) пять раз. В результате журнал экспериментальных данных будет содержать пять записей.
2.8
Последовательно увеличивая число кластеров до восьми, проведите серии экспериментов (шаги 2.2 – 2.7). В результате журнал экспериментальных будет содержать 40 записей (таблица 29).
3 Обработка экспериментальных данных.
3.1 Выберите эксперименты, в которых достигнуто минимальное значение функции штрафа для каждого числа кластеров, запишите эти данные в таблицу обработанных экспериментальных данных
(
табл. 29).
Таблица 29. Обработанные экспериментальные данные
Номер эксперимента
Число кластеров
Функция штрафа
1 2
…
8 3.2
На основе полученной таблицы обработанных экспериментальных данных постройте график зависимости минимального значения функции штрафа от числа кластеров. Пример такого графика приведен ниже (рис. 51).
Рис. 51. Зависимость функции штрафа от числа кластеров

74 3.3
По построенному графику, пользуясь методом локтя, определите оптимальное число кластеров. Для приведенного выше графика характерный излом происходит при числе кластеров, равном трем, соответственно в данном случае оптимальное число кластеров равно трем.
3.4
Сделайте выводы по работе:
4
Отчет по работе.
4.1
Составьте отчет о работе.
4.2
Преобразуйте отчет в формат PDF.
4.3
Запакуйте отчет (PDF), два исходных файла с индикаторами
(XLS
) и объединенный файл данных (CSV) двумерного анализа в один архив формата ZIP.
4.4
Прикрепите созданный архив в раздел «Отчет по лабораторной работе №5 (кластерный анализ)» курса «Анализ данных» СДО университета [2].
Требования к отчету
Отчет должен содержать:
1 Титульный лист: наименование работы, вариант задания, ФИО студента, номер учебной группы, дата выполнения работы.
2 Реферат.
3
Оглавление.
4
Задание.
5
Журнал экспериментальных данных.
6
Обработанные экспериментальные данные.
7
Диаграмму функции штрафа.
8
Определение числа кластеров.
9
Диаграмма кластеров.
10
Выводы.
11
Список использованных источников:
11.
1 Источники данных.
11
.2 Нормативные документы.
Отчет должен быть оформлен в соответствии с действующими стандартами университета [18, 19].

1 2 3 4 5