ответы лаб 4. Задача классификации

Название	Задача классификации
Дата	20.12.2021
Размер	219.47 Kb.
Формат файла
Имя файла	ответы лаб 4.docx
Тип	Задача #311476

1. В чём состоит задача классификации?

Классификация — один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.
Классифицировать объект — значит, указать номер (или наименование класса), к которому относится данный объект.

Классификация объекта — номер или наименование класса, выдаваемый алгоритмом классификации в результате его применения к данному конкретному объекту.
В машинном обучении задача классификации относится к разделу обучения с учителем. Существует также обучение без учителя, когда разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В этом случае принято говорить о задачах кластеризации или таксономии, и классы называть, соответственно, кластерами или таксонами.

2. Как вероятность ошибочной классификации оценивается по контрольной выборке? Каким свойствам отвечает её оценка?

3. Какую функцию минимизирует байесовский классификатор?

Минимизирует вероятность ошибочной классификации , поскольку выбирается именно тот класс, для которого вероятность ошибки классификации минимальна.

4. Как записывается формула Байеса? Что такое априорная и апостериорная вероятности и где они фигурируют в этой формуле?

Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.

События, отражающие действие «причин», в данном случае называют гипотезами, так как они — предполагаемые события, повлёкшие данное. Безусловную вероятность справедливости гипотезы называют априорной (насколько вероятна причина вообще), а условную — с учётом факта произошедшего события — апостериорной (насколько вероятна причина оказалась с учётом данных о событии).

5. В чём достоинства и недостатки байесовского классификатора? Почему он редко используется на практике?

С введением некоторых дополнительных предположений о независимости признаков можно получить популярный байесовский классификатор, называемый в литературе наивным байесовским классификатором (англ. Naive Bayes classifier). На самом деле, даже в описанном общем случае байесовский классификатор весьма наивен, и его наивность заключается в предположении о том, что все условные распределения признаков внутри классов известны. На практике это не так, и напрямую воспользоваться подобного рода классификатором невозможно,

6. Как работает байесовский классификатор для случая двух классов и одинаковых априорных вероятностей появления объектов?

В простейшем случае, если все априорные вероятности для всех классов равны друг другу объект x следует относить к тому классу, у которого условная плотность вероятности в точке x больше.

7. Как работает классификация методом k ближайших соседей?

Наиболее простой и распространённый способ классификации объектов называется методом k ближайших соседей (англ. k-nearest neighbors, k-NN). Он основан на идее отнесения объекта к тому классу, к которому относится наибольшее количество ближайших к нему объектов из обучающей выборки.

8. Как плотность вероятности оценивается по k ближайшим соседям?

9. Из каких соображений следует выбирать число соседей при классификации по k ближайшим соседям?

При k=1 алгоритм ближайшего соседа неустойчив к шумовым выбросам: он даёт ошибочные классификации не только на самих объектах-выбросах, но и на ближайших к ним объектах других классов. При k=m, наоборот, алгоритм чрезмерно устойчив и вырождается в константу. Таким образом, крайние значения k нежелательны. На практике оптимальное значение параметра k определяют по критерию скользящего контроля, чаще всего — методом исключения объектов по одному (leave-one-out cross-validation).

10. Какова связь между вероятностью ошибочной классификации по ближайшему соседу и вероятностью ошибочной классификации с помощью байесовского классификатора?

Вероятность ошибки при классификации по ближайшему соседу не более чем в два раза превышает вероятность ошибки байесовским классификатором. Учитывая, что вероятность ошибки байесовского классификатора минимальна для широкого круга классификаторов, это весьма неплохой результат.