Главная страница

Поручиков М.А. Анализ данных. А. поручиков


Скачать 2.76 Mb.
НазваниеА. поручиков
Дата25.10.2022
Размер2.76 Mb.
Формат файлаdocx
Имя файлаПоручиков М.А. Анализ данных.docx
ТипАнализ
#753011
страница17 из 20
1   ...   12   13   14   15   16   17   18   19   20

Вопросы для самоконтроля


  1. Дайте определение понятия «кластер».

  2. Дайте определение понятия «кластеризация».

  3. Охарактеризуйте два любых алгоритма кластеризации. 4 Назовите входные данные алгоритма к-средних.

  1. Назовите выходные данные алгоритма к-средних.

  2. Приведите последовательность шагов в алгоритме к-средних.

  3. Приведите порядок кластерного анализа с помощью ПО kmeans.

Лабораторная работа «Кластерный анализ»


Общиесведения

Целью работы является приобретение навыка кластерного анализа на основе метода к-средних.

В качестве исходных данных используются статистические данные Всемирного банка. В качестве инструментального средства для проведения экспериментов используется программное обеспечение kmeans. Описание данного программного обеспечения приведено выше (см. с. 65).

Исходныеданные
Таблица 27. Исходные данные для кластерного анализа

Вариант

Показатели

Год

1

  1. Railways, goods transported (million ton-km).

  2. Air transport, freight (million ton-km).

2008

2

  1. Railways, goods transported (million ton-km)

  2. Roads, goods transported (million ton-km)

2007

3

  1. Air transport, freight (million ton-km)

  2. Roads, goods transported (million ton-km)

2006

4

  1. Railways, goods transported (million ton-km)

  2. Railways, passengers carried (million passenger-km)

2009

5

  1. Air transport, freight (million ton-km)

  2. Air transport, passengers carried

2005

6

  1. Roads, goods transported (million ton-km)

  2. Roads, passengers carried (million passenger-km)

2002

7

  1. Roads, total network (km)

  2. Rail lines (total route-km)

2002

8

  1. Internet users (per 100 people)

  2. Mobile cellular subscriptions (per 100 people)

2011

9

  1. Internet users (per 100 people)

  2. Passenger cars (per 1,000 people)

2010

10

  1. Mobile cellular subscriptions (per 100 people)

  2. Passenger cars (per 1,000 people)

2009

11

  1. GDP per capita (current US$)

  2. Passenger cars (per 1,000 people)

2008

12

  1. GDP per capita (current US$)

  2. Internet users (per 100 people)

2007

13

  1. GDP per capita (current US$)

  2. Life expectancy at birth, total (years)

2011

14

  1. GDP per capita (current US$)

  2. Physicians (per 1,000 people)

2010

Окончание табл. 27


Вариант

Показатели

Год

15

  1. Access to electricity (% of population)

  2. Life expectancy at birth, total (years)

2009

16

  1. Average precipitation in depth (mm per year)

  2. Cereal yield (kg per hectare)

2011

17

  1. GDP per capita (current US$)

  2. Cereal yield (kg per hectare)

2011


18

  1. GDP per capita (current US$)

  2. GDP per unit of energy use (constant 2005 PPP $ per kg of oil equivalent)


2010


19

  1. Researchers in R&D (per million people)

  2. GDP per unit of energy use (constant 2005 PPP $ per kg of oil equivalent)


2008

20

  1. Agricultural land (sq. km)

  2. Land area (sq. km)

2011

21

  1. Forest area (sq. km)

  2. Land area (sq. km)

2010

22

  1. Population, total

  2. Land area (sq. km)

2009

23

  1. Health expenditure, total (% of GDP)

  2. Military expenditure (% of GDP)

2010

24

  1. High-technology exports (% of manufactured exports)

  2. GDP per capita (current US$)

2010

25

  1. Hospital beds (per 1,000 people)

  2. Life expectancy at birth, total (years)

2005


Порядоквыполнения

  1. Подготовка:

    1. Выберите задание (табл. 27).

    2. Загрузите программу kmeans из курса «Анализ данных» СДО университета [2].

    3. Подготовьте исходные данные для кластеризации:

      1. На сайте Всемирного банка [16] найдите данные по странам мира согласно заданию.

      2. Загрузите соответствующие файлы на компьютер (Download data – Excel file).

      3. Соберите данные из двух загруженных файлов в один файл в формате CSV. Файл должен содержать три столбца: название страны, показатель №1, показатель №2. Схема подготовки файла с исходными данными приведена ниже (рис. 50).





Data_2d.csv
Indicator1.xls


Сountry

code

2004

2005

2006

CHN

1

4

7

RUS

2

5

8

UKR

3

6

9



Indicator2.xls




Сountry

code

2004

2005

2006

CHN

11

14

17

RUS

12

15

18

UKR

13

16

19





Рис. 50. Схема подготовки исходных данных


  1. Эксперименты:

    1. Запустите программу kmeans.

    2. Установите количество кластеров, равное единице.

    3. Выберите файл с исходными данными (кнопка «Загрузить данные»).

    4. Нажмите кнопку «Старт».

    5. Нажимая соответствующие кнопки, сохраните диаграмму с кривой обучения, диаграмму кластеров и файл с кластеризованными объектами.

    6. Запишите номер эксперимента и значение функции штрафа в таблицу экспериментальных данных (табл. 28).


Таблица 28. Форма журнала экспериментальных данных


Номер

эксперимента

Число кластеров

Функция штрафа




























    1. Повторите эксперимент (шаги 2.2-2.6) пять раз. В результате журнал экспериментальных данных будет содержать пять записей.

    2. Последовательно увеличивая число кластеров до восьми, проведите серии экспериментов (шаги 2.2 – 2.7). В результате журнал экспериментальных будет содержать 40 записей (таблица 29).

  1. Обработка экспериментальных данных.

    1. Выберите эксперименты, в которых достигнуто минимальное значение функции штрафа для каждого числа кластеров, запишите эти данные в таблицу обработанных экспериментальных данных (табл. 29).


Таблица 29. Обработанные экспериментальные данные


Номер

эксперимента

Число кластеров

Функция штрафа




1







2















8







    1. На основе полученной таблицы обработанных экспериментальных данных постройте график зависимости минимального значения функции штрафа от числа кластеров. Пример такого графика приведен ниже (рис. 51).




Рис. 51. Зависимость функции штрафа от числа кластеров

    1. По построенному графику, пользуясь методом локтя, определите оптимальное число кластеров. Для приведенного выше графика характерный излом происходит при числе кластеров, равном трем, соответственно в данном случае оптимальное число кластеров равно трем.

    2. Сделайте выводы по работе:

  1. Отчет по работе.

    1. Составьте отчет о работе.

    2. Преобразуйте отчет в формат PDF.

    3. Запакуйте отчет (PDF), два исходных файла с индикаторами (XLS) и объединенный файл данных (CSV) двумерного анализа в один архив формата ZIP.

    4. Прикрепите созданный архив в раздел «Отчет по лабораторной работе №5 (кластерный анализ)» курса «Анализ данных» СДО университета [2].

Требованияк отчету

Отчет должен содержать:

  1. Титульный лист: наименование работы, вариант задания, ФИО студента, номер учебной группы, дата выполнения работы.

  2. Реферат.

  3. Оглавление.

  4. Задание.

  5. Журнал экспериментальных данных.

  6. Обработанные экспериментальные данные. 7 Диаграмму функции штрафа.

8 Определение числа кластеров. 9 Диаграмма кластеров.

  1. Выводы.

  2. Список использованных источников:

    1. Источники данных.

    2. Нормативные документы.

Отчет должен быть оформлен в соответствии с действующими стандартами университета [18, 19].
1   ...   12   13   14   15   16   17   18   19   20


написать администратору сайта