Анализ данных. Лабораторная №4 - Анализ данных - Исламов Б.Э.. Высшая школа печати и медиатехнологий

Название	Высшая школа печати и медиатехнологий
Анкор	Анализ данных
Дата	12.11.2022
Размер	3 Mb.
Формат файла
Имя файла	Лабораторная №4 - Анализ данных - Исламов Б.Э. .docx
Тип	Отчет #784987

Министерство науки и высшего образования Российской Федерации

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«Санкт-Петербургский государственный университет
промышленных технологий и дизайна»

ВЫСШАЯ ШКОЛА ПЕЧАТИ И МЕДИАТЕХНОЛОГИЙ

Институт: Полиграфических технологий и оборудования

Кафедра: Информационных и управляющих систем

Направление подготовки: 09.03.01 Информатика и вычислительная техника

Профиль подготовки: Автоматизированные системы обработки информации и управления

ОТЧЕТ ПО ЛАБОРАТОРНОЙ РАБОТЕ №4

Дисциплина: Основы анализа данных и Data Mining

Выполнил:

студент группы 4-ТИД-1 Исламов Б.Э.

(подпись)

Руководитель:

Белая Т.И.

(подпись)

Дата защиты работы

Оценка

Санкт-Петербург

2022

Лабораторная работа

«Классификация»

1. Смоделированные независимые случайные векторы (X, Y, Z), n1 из которых относятся к первому классу, а n2 – ко второму классу. Векторы, относящиеся к первому классу, распределены по гауссовскому закону с математическим ожиданием a1 и корреляционной матрицей R1, а векторы, относящиеся ко второму классу, – по гауссовскому закону с математическим ожиданием a2 и корреляционной матрицей R2.

Объекты со своими настоящими классами:

Объекты с классами, к которым их отнёс классификатор:

2. Реальные статистические данные из заданного набора:

Заданный набор:

15. Auto-Mpg Data

Первый признак: mpg (столбец №1)

Второй признак: horsepower (столбец №4)

Третий признак: acceleration (столбец №6)

Класс: cylinders (столбец №2)

Объекты со своими настоящими классами:

Объекты с классами, к которым их отнёс классификатор:

na.omit опускает значения NA в массиве, которые в данном случае есть в y

Контрольные вопросы:

1. В чём состоит задача классификации?

2. Как вероятность ошибочной классификации оценивается по контрольной выборке? Каким свойствам отвечает её оценка?

3. Какую функцию минимизирует байесовский классификатор?

Вероятность ошибочной классификации

4. Как записывается формула Байеса? Что такое априорная и апостериорная вероятности и где они фигурируют в этой формуле?

Априорная вероятность – это вероятность, присвоенная событию при отсутствии знания, поддерживающего его наступление.

Апостериорная вероятность – условная вероятность случайного события при условии того, что известны апостериорные данные, то есть полученные после опыта. В этой формуле априорная вероятность это

, а апостериорная –

5. В чём достоинства и недостатки байесовского классификатора? Почему он редко используется на практике?

6. Как работает байесовский классификатор для случая двух классов и одинаковых априорных вероятностей появления объектов?

7. Как работает классификация методом k ближайших соседей?

8. Как плотность вероятности оценивается по k ближайшим соседям?

9. Из каких соображений следует выбирать число соседей при классификации по k ближайшим соседям?

10. Какова связь между вероятностью ошибочной классификации по ближайшему соседу и вероятностью ошибочной классификации с помощью байесовского классификатора?