Поручиков М.А. Анализ данных. А. поручиков
Скачать 2.76 Mb.
|
Вопросы для самоконтроляДайте определение понятия «кластер». Дайте определение понятия «кластеризация». Охарактеризуйте два любых алгоритма кластеризации. 4 Назовите входные данные алгоритма к-средних. Назовите выходные данные алгоритма к-средних. Приведите последовательность шагов в алгоритме к-средних. Приведите порядок кластерного анализа с помощью ПО kmeans. Лабораторная работа «Кластерный анализ»Общиесведения Целью работы является приобретение навыка кластерного анализа на основе метода к-средних. В качестве исходных данных используются статистические данные Всемирного банка. В качестве инструментального средства для проведения экспериментов используется программное обеспечение kmeans. Описание данного программного обеспечения приведено выше (см. с. 65). Исходныеданные Таблица 27. Исходные данные для кластерного анализа
Окончание табл. 27
Порядоквыполнения Подготовка: Выберите задание (табл. 27). Загрузите программу kmeans из курса «Анализ данных» СДО университета [2]. Подготовьте исходные данные для кластеризации: На сайте Всемирного банка [16] найдите данные по странам мира согласно заданию. Загрузите соответствующие файлы на компьютер (Download data – Excel file). Соберите данные из двух загруженных файлов в один файл в формате CSV. Файл должен содержать три столбца: название страны, показатель №1, показатель №2. Схема подготовки файла с исходными данными приведена ниже (рис. 50). Data_2d.csv Indicator1.xls
Indicator2.xls
Рис. 50. Схема подготовки исходных данных Эксперименты: Запустите программу kmeans. Установите количество кластеров, равное единице. Выберите файл с исходными данными (кнопка «Загрузить данные»). Нажмите кнопку «Старт». Нажимая соответствующие кнопки, сохраните диаграмму с кривой обучения, диаграмму кластеров и файл с кластеризованными объектами. Запишите номер эксперимента и значение функции штрафа в таблицу экспериментальных данных (табл. 28). Таблица 28. Форма журнала экспериментальных данных
Повторите эксперимент (шаги 2.2-2.6) пять раз. В результате журнал экспериментальных данных будет содержать пять записей. Последовательно увеличивая число кластеров до восьми, проведите серии экспериментов (шаги 2.2 – 2.7). В результате журнал экспериментальных будет содержать 40 записей (таблица 29). Обработка экспериментальных данных. Выберите эксперименты, в которых достигнуто минимальное значение функции штрафа для каждого числа кластеров, запишите эти данные в таблицу обработанных экспериментальных данных (табл. 29). Таблица 29. Обработанные экспериментальные данные
На основе полученной таблицы обработанных экспериментальных данных постройте график зависимости минимального значения функции штрафа от числа кластеров. Пример такого графика приведен ниже (рис. 51). Рис. 51. Зависимость функции штрафа от числа кластеров По построенному графику, пользуясь методом локтя, определите оптимальное число кластеров. Для приведенного выше графика характерный излом происходит при числе кластеров, равном трем, соответственно в данном случае оптимальное число кластеров равно трем. Сделайте выводы по работе: Отчет по работе. Составьте отчет о работе. Преобразуйте отчет в формат PDF. Запакуйте отчет (PDF), два исходных файла с индикаторами (XLS) и объединенный файл данных (CSV) двумерного анализа в один архив формата ZIP. Прикрепите созданный архив в раздел «Отчет по лабораторной работе №5 (кластерный анализ)» курса «Анализ данных» СДО университета [2]. Требованияк отчету Отчет должен содержать: Титульный лист: наименование работы, вариант задания, ФИО студента, номер учебной группы, дата выполнения работы. Реферат. Оглавление. Задание. Журнал экспериментальных данных. Обработанные экспериментальные данные. 7 Диаграмму функции штрафа. 8 Определение числа кластеров. 9 Диаграмма кластеров. Выводы. Список использованных источников: Источники данных. Нормативные документы. Отчет должен быть оформлен в соответствии с действующими стандартами университета [18, 19]. |