ИПЗ (3) ИиИТвПД (1). Проекта, название датасета и ссылку на него
Скачать 67.37 Kb.
|
ИПЗ Разделы 7-10 Создать файл типа ipynb и оформить титульную ячейку, указав: ФИО, группу, название проекта, название датасета и ссылку на него. Имя файла <ИПЗ_7-10_ФамилияИО> Выбрать датасет с сайта kaggle.com Для выбранного датасета оформить в том файле решение следующих задач: - сформулировать постановку основной задачи, которая будет решаться в проекте (классификация или регрессия) - рассчитать основные описательные статистики - провести визуальный анализ данных, построив графики разных типов для количественных и качественных признаков. - построить графики, сгруппировав признаки по градациям целевой переменной (в случае задачи классификации) или графики зависимости признаков от значений целевого признака (в случае задачи регрессии) - обработать пропущенные значения, заменив пропуски модой, медианой или средним (обосновать выбор метода). Строки с пропусками в целевой переменной удалить (!) - построить графики еще раз - сохранить обработанный датасет - построить классификаторы для выбранного целевого признака (или перейти от задачи регрессии к задаче классификации, введя дополнительный столбец - класс, разбив значения целевого признака на два класса). Использовать логистическую регрессию и деревья решений с параметрами по умолчанию. - подобрать 2-3 оптимальных параметра - рассчитать метрики для всех построенных классификаторов, включая AUC. - Выбрать наилучшую модель и описать, как ею можно пользоваться для новых данных. Предоставить такую возможность проверяющему (подготовить демонстрационный пример загрузки новых данных) - построить регрессию признаков на значения целевой переменной (в случае основной задачи проекта - регрессии) или преобразовать один из признаков в непрерывный (в случае задачи классификации), убедившись предварительно в отсутствии сильной корреляции. Сильно коррелирующие признаки исключить. - рассчитать метрики качества регрессионной модели с параметрами по умолчанию - подобрать 2-3 оптимальных параметра моделей - выбрать наилучшую модель, описать, как ею можно пользоваться, предоставить проверяющему возможность загрузки внешних данных и получения ответа. - - создать файл, загрузив в него текст описания проблемы, связанной с вашим датасетом и описание самого датасета с веб-страницы сайта kaggle. - предобработать текст, исключить стоп-слова, цифры и спецсимволы, знаки пунктуации. - нормализовать текст - построить облако тегов Оформить проект в виде презентации |