Главная страница

Практическая по RapidMiner. Использованные фильтры kMeans


Скачать 0.67 Mb.
НазваниеИспользованные фильтры kMeans
АнкорRapedMiner
Дата09.09.2021
Размер0.67 Mb.
Формат файлаdocx
Имя файлаПрактическая по RapidMiner.docx
ТипДокументы
#230824

Предполагается 5 кластеров.


Использованные фильтры



k-Means






Кластер

Название файлов, которые должны были попасть

Название файлов, которые попали

Кол-во правильно попавших текстов, TP

Кол-во не попавших текстов, FN

Кол-во неправильно попавших текстов, FP

0

1,2,3,4

11,14

0

4

2

1

5,6,7,8

5,6,7,8,16,17,18,19

4

0

4

2

9,10,11,12

1,12,15

1

3

2

3

13,14,15,16

2,3,4,20

0

4

4

4

17,18,19,20

9,10,13

0

4

3

TP: 5

FP: 15

FN: 15

Precision = 5 / (5 + 15) = 0.25

Recall = 5 / (5 + 15) = 0.25

F = 2* ((0.25 * 0.25) / (0.25+0.25)) = 2*(0.0625/0.5) = 0.25

Random Clustering






Кластер

Название файлов, которые должны были попасть

Название файлов, которые попали

Кол-во правильно попавших текстов, TP

Кол-во не попавших текстов, FN

Кол-во неправильно попавших текстов, FP

0

1,2,3,4

1,12

1

3

1

1

5,6,7,8

5,13,15,16,17,18,19

1

3

6

2

9,10,11,12

2,3,4,9,14

1

3

4

3

13,14,15,16

8,11,20

0

4

3

4

17,18,19,20

6,7,10

0

4

3

TP: 3

FP: 17

FN: 17

Precision = 3 / (3 + 17) = 0.15

Recall = 3 / (3 + 17) = 0.15

F = 2* ((0.15 * 0.15) / (0.15+0.15)) = 2*(0.0225/0.3) = 0.15

Вывод:


Были использованы следующие алгоритмы: k-Means и random clustering. Оба алгоритма вынуждают указывать количество кластеров, т.е их нужно знать заранее.

k-Means для каждого кластера на каждой итерации вычисляет центр масс заново, затем идёт разбиение на новые кластеры в соответствии с тем, какой центром оказался ближе к выбранной метрике. Когда не происходит изменения кластеров, то алгоритм завершает свою работу.

Random clustering перебирает все тексты и случайно присваивает им кластер. В связи с этим алгоритм k-Means работает лучше.


написать администратору сайта