Главная страница

Поручиков М.А. Анализ данных. А. поручиков


Скачать 2.76 Mb.
НазваниеА. поручиков
Дата25.10.2022
Размер2.76 Mb.
Формат файлаdocx
Имя файлаПоручиков М.А. Анализ данных.docx
ТипАнализ
#753011
страница12 из 20
1   ...   8   9   10   11   12   13   14   15   ...   20

Качество классификации


Очевидно, что при бинарной классификации возможны четыре сочетания реального класса каждого из объектов выборки данных и предположения алгоритма о классе объекта (рис. 25).

Правильно классифицированные алгоритмом объекты относятся либо к группе «true positives», либо к группе «true negatives». Неправильно классифицированные алгоритмом объекты относятся либо к группе «false positives», либо к группе «false negatives».





Реальность

+

-



Предположение алгоритма


+

True positives (TP)

False positives (FP)

Ошибка I рода


-

False negatives (FN)

Ошибка II рода

true negatives (TN)

Рис. 25. Сочетания при бинарной классификации
Реальные алгоритмы допускают ошибки классификации двух видов: ошибки I рода и ошибки II рода. Ошибки классификации объектов могут привести к последующим неправильным решениям и нежелательным последствиям (рис. 26).





Реальность

Нормальное

письмо

Письмо с вирусом


Предположение алгоритма


Нормальное письмо

Письмо пропущено в почтовый ящик

Письмо пропущено в почтовый ящик. Последствие: заражение

компьютера вирусом


Письмо с вирусом

Письмо отброшено.

Последствие: пользователь не

получит важную информацию

Письмо отброшено

Рис. 26. Последствия ошибок классификации

Существует несколько методов оценки качества классификации. Одним из методов является оценка с помощью F-критерия, выполняемая в четыре этапа:

1 Подсчет количества каждого сочетания случаев. 2 Расчет точности (precision)

P TP TP FP
. (13)

  1. Расчет чувствительности (recall)


  1. Расчет F-критерия

R TP TP FN
. (14)

F 2 P R. (15)

P R

Предположим, что в электронный почтовый ящик пришло 10 сообщений, часть из которых является нормальными, а часть – спамом (табл. 17).
Таблица 17. Сообщения электронной почты




Вид сообщения

«Мнение» антивируса

1

письмо

письмо

2

спам

письмо

3

письмо

спам

4

спам

письмо

5

письмо

спам

6

письмо

письмо

7

спам

спам

8

письмо

письмо

9

письмо

спам

10

письмо

письмо


Рассчитаем количество всех четырех сочетаний (табл. 18).

Таблица 18. Сочетания классификации




Реальность

письмо

Спам


«Мнение» антивируса

письмо

4

2

спам

3

1


В соответствии с формулами (13) - (15)

P 4 0,667 ; R 4 0,571; F 2 0,667 0,571 0,615 .



4 2

4 3

0,667 0,571


Для идеального алгоритма, не совершающего ошибок, F 0 .

Для проверки качества классификатора можно использовать репозиторий открытых наборов данных [21].
1   ...   8   9   10   11   12   13   14   15   ...   20


написать администратору сайта