Поручиков М.А. Анализ данных. А. поручиков
Скачать 2.76 Mb.
|
Качество классификацииОчевидно, что при бинарной классификации возможны четыре сочетания реального класса каждого из объектов выборки данных и предположения алгоритма о классе объекта (рис. 25). Правильно классифицированные алгоритмом объекты относятся либо к группе «true positives», либо к группе «true negatives». Неправильно классифицированные алгоритмом объекты относятся либо к группе «false positives», либо к группе «false negatives».
Рис. 25. Сочетания при бинарной классификации Реальные алгоритмы допускают ошибки классификации двух видов: ошибки I рода и ошибки II рода. Ошибки классификации объектов могут привести к последующим неправильным решениям и нежелательным последствиям (рис. 26).
Рис. 26. Последствия ошибок классификации Существует несколько методов оценки качества классификации. Одним из методов является оценка с помощью F-критерия, выполняемая в четыре этапа: 1 Подсчет количества каждого сочетания случаев. 2 Расчет точности (precision) P TP TP FP . (13) Расчет чувствительности (recall) Расчет F-критерия R TP TP FN . (14) F 2 P R. (15) P R Предположим, что в электронный почтовый ящик пришло 10 сообщений, часть из которых является нормальными, а часть – спамом (табл. 17). Таблица 17. Сообщения электронной почты
Рассчитаем количество всех четырех сочетаний (табл. 18). Таблица 18. Сочетания классификации
В соответствии с формулами (13) - (15) P 4 0,667 ; R 4 0,571; F 2 0,667 0,571 0,615 . 4 2 4 3 0,667 0,571 Для идеального алгоритма, не совершающего ошибок, F 0 . Для проверки качества классификатора можно использовать репозиторий открытых наборов данных [21]. |