ответы лаб 4. Задача классификации
Скачать 219.47 Kb.
|
1. В чём состоит задача классификации? Классификация — один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества. Классифицировать объект — значит, указать номер (или наименование класса), к которому относится данный объект. Классификация объекта — номер или наименование класса, выдаваемый алгоритмом классификации в результате его применения к данному конкретному объекту. В машинном обучении задача классификации относится к разделу обучения с учителем. Существует также обучение без учителя, когда разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В этом случае принято говорить о задачах кластеризации или таксономии, и классы называть, соответственно, кластерами или таксонами. 2. Как вероятность ошибочной классификации оценивается по контрольной выборке? Каким свойствам отвечает её оценка? 3. Какую функцию минимизирует байесовский классификатор? Минимизирует вероятность ошибочной классификации , поскольку выбирается именно тот класс, для которого вероятность ошибки классификации минимальна. 4. Как записывается формула Байеса? Что такое априорная и апостериорная вероятности и где они фигурируют в этой формуле? Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлёкшие данное. Безусловную вероятность справедливости гипотезы называют априорной (насколько вероятна причина вообще), а условную — с учётом факта произошедшего события — апостериорной (насколько вероятна причина оказалась с учётом данных о событии). 5. В чём достоинства и недостатки байесовского классификатора? Почему он редко используется на практике? С введением некоторых дополнительных предположений о независимости признаков можно получить популярный байесовский классификатор, называемый в литературе наивным байесовским классификатором (англ. Naive Bayes classifier). На самом деле, даже в описанном общем случае байесовский классификатор весьма наивен, и его наивность заключается в предположении о том, что все условные распределения признаков внутри классов известны. На практике это не так, и напрямую воспользоваться подобного рода классификатором невозможно, 6. Как работает байесовский классификатор для случая двух классов и одинаковых априорных вероятностей появления объектов? В простейшем случае, если все априорные вероятности для всех классов равны друг другу объект x следует относить к тому классу, у которого условная плотность вероятности в точке x больше. 7. Как работает классификация методом k ближайших соседей? Наиболее простой и распространённый способ классификации объектов называется методом k ближайших соседей (англ. k-nearest neighbors, k-NN). Он основан на идее отнесения объекта к тому классу, к которому относится наибольшее количество ближайших к нему объектов из обучающей выборки. 8. Как плотность вероятности оценивается по k ближайшим соседям? 9. Из каких соображений следует выбирать число соседей при классификации по k ближайшим соседям? При k=1 алгоритм ближайшего соседа неустойчив к шумовым выбросам: он даёт ошибочные классификации не только на самих объектах-выбросах, но и на ближайших к ним объектах других классов. При k=m, наоборот, алгоритм чрезмерно устойчив и вырождается в константу. Таким образом, крайние значения k нежелательны. На практике оптимальное значение параметра k определяют по критерию скользящего контроля, чаще всего — методом исключения объектов по одному (leave-one-out cross-validation). 10. Какова связь между вероятностью ошибочной классификации по ближайшему соседу и вероятностью ошибочной классификации с помощью байесовского классификатора? Вероятность ошибки при классификации по ближайшему соседу не более чем в два раза превышает вероятность ошибки байесовским классификатором. Учитывая, что вероятность ошибки байесовского классификатора минимальна для широкого круга классификаторов, это весьма неплохой результат. |