Главная страница

ИПЗ (3) ИиИТвПД (1). Проекта, название датасета и ссылку на него


Скачать 67.37 Kb.
НазваниеПроекта, название датасета и ссылку на него
Дата16.06.2022
Размер67.37 Kb.
Формат файлаpdf
Имя файлаИПЗ (3) ИиИТвПД (1).pdf
ТипРешение
#595439

ИПЗ Разделы 7-10
Создать файл типа ipynb и оформить титульную ячейку, указав: ФИО, группу, название проекта, название датасета и ссылку на него.
Имя файла <ИПЗ_7-10_ФамилияИО>
Выбрать датасет с сайта kaggle.com
Для выбранного датасета оформить в том файле решение следующих задач:
- сформулировать постановку основной задачи, которая будет решаться в проекте (классификация или регрессия)
- рассчитать основные описательные статистики
- провести визуальный анализ данных, построив графики разных типов для количественных и качественных признаков.
- построить графики, сгруппировав признаки по градациям целевой переменной (в случае задачи классификации) или графики зависимости признаков от значений целевого признака (в случае задачи регрессии)
- обработать пропущенные значения, заменив пропуски модой, медианой или средним (обосновать выбор метода). Строки с пропусками в целевой переменной удалить (!)
- построить графики еще раз
- сохранить обработанный датасет
- построить классификаторы для выбранного целевого признака (или перейти от задачи регрессии к задаче классификации, введя дополнительный столбец - класс, разбив значения целевого признака на два класса).
Использовать логистическую регрессию и деревья решений с параметрами по умолчанию.
- подобрать 2-3 оптимальных параметра
- рассчитать метрики для всех построенных классификаторов, включая AUC.
- Выбрать наилучшую модель и описать, как ею можно пользоваться для новых данных. Предоставить такую возможность проверяющему
(подготовить демонстрационный пример загрузки новых данных)

- построить регрессию признаков на значения целевой переменной (в случае основной задачи проекта - регрессии) или преобразовать один из признаков в непрерывный (в случае задачи классификации), убедившись предварительно в отсутствии сильной корреляции. Сильно коррелирующие признаки исключить.
- рассчитать метрики качества регрессионной модели с параметрами по умолчанию
- подобрать 2-3 оптимальных параметра моделей
- выбрать наилучшую модель, описать, как ею можно пользоваться, предоставить проверяющему возможность загрузки внешних данных и получения ответа.
- - создать файл, загрузив в него текст описания проблемы, связанной с вашим датасетом и описание самого датасета с веб-страницы сайта kaggle.
- предобработать текст, исключить стоп-слова, цифры и спецсимволы, знаки пунктуации.
- нормализовать текст
- построить облако тегов
Оформить проект в виде презентации


написать администратору сайта