анализ данных. 1 Кластерный анализ 4

Название	1 Кластерный анализ 4
Дата	25.05.2022
Размер	309.97 Kb.
Формат файла
Имя файла	анализ данных.docx
Тип	Реферат #549608
страница	1 из 4

1 2 3 4

Работа была сделана для девочки с направления «журналистика», но , получив работу, отказались выкупать по причине вдруг появившегося мышления

СОДЕРЖАНИЕ

Введение 3

1 Кластерный анализ 4

2 Регрессионный анализ со статистической значимостью 11

3 Дисперсионный анализ 28

4 Коэффициент регрессии: статистическое значение 33

Список использованных источников 36

ВВЕДЕНИЕ

Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнением и отражающую функциональную зависимость между экспериментальными количественными переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По полученным результатам можно оценить природу и степень зависимости переменных и предсказать новые значения зависимой переменной.

Корреляционный анализ – это группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками.

Кластерный анализ осуществляет разбиение объектов на заданное число удаленных друг от друга классов, а также строит дерево классификаций объектов посредством иерархического объединения их в группы (кластеры).

Цель работы – на конкретных примерах рассмотреть процесс проведения дисперсионного, кластерного, регрессионного анализов.

1 КЛАСТЕРНЫЙ АНАЛИЗ

Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.

В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах.

Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.

Задачи кластерного анализа можно объединить в следующие группы:

1. Разработка типологии или классификации.

2. Исследование полезных концептуальных схем группирования объектов.

3. Представление гипотез на основе исследования данных.

4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Задача:

Провести классификацию объектов, каждый из которых характеризуется двумя признаками. В качестве расстояния между объектами принять, расстояние между кластерами исчислить по принципу “ближайшего соседа”.

Исходные данные.

№ п/п	1	2	3	4	5	6	7	8	9	10
x₁	2	3	8	4	3	5	3	9	3	2
x₂	1	8	9	3	6	7	7	3	7	3

1. Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:

где l - признаки;

k - количество признаков

2. Полученные данные помещаем в таблицу (матрицу расстояний).

№ п/п	1	2	3	4	5	6	7	8	9	10
1	0	7.071	10	2.828	5.099	6.708	6.083	7.28	6.083	2
2	7.071	0	5.099	5.099	2	2.236	1	7.81	1	5.099
3	10	5.099	0	7.211	5.831	3.606	5.385	6.083	5.385	8.485
4	2.828	5.099	7.211	0	3.162	4.123	4.123	5	4.123	2
5	5.099	2	5.831	3.162	0	2.236	1	6.708	1	3.162
6	6.708	2.236	3.606	4.123	2.236	0	2	5.657	2	5
7	6.083	1	5.385	4.123	1	2	0	7.211	0	4.123
8	7.28	7.81	6.083	5	6.708	5.657	7.211	0	7.211	7
9	6.083	1	5.385	4.123	1	2	0	7.211	0	4.123
10	2	5.099	8.485	2	3.162	5	4.123	7	4.123	0

1 2 3 4