Расчёт ректификационной установки для разделения смеси этанол-ацетон. Разведочный анализ данных в Python
Скачать 237.98 Kb.
|
Контрольная работа «Разведочный анализ данных в Python» Разведочный анализ – это исследование данных при помощи методов описательной статистики и визуализации с целью выявления зависимостей в них и выдвижения гипотез для последующего углубленного анализа, - например, моделирования. Еще одной целью разведочного анализа является оценка пригодности данных к анализу, выявление наличия в них различных проблем, таких как выбросы, пропущенные или некорректные значения, нарушение допущений статистических моделей, которые предполагается в дальнейшем применять к этим данным. В процессе выполнения этого задания вы проведете разведочный анализ предложенного вам, или самостоятельно выбранного набора данных и продемонстрируете свой уровень владения Python для анализа и визуализации данных, а также свою способность интерпретировать полученные результаты и делать выводы на их основе. Все этапы подготовки и анализа данных необходимо отразить в HTML-отчете, сгенерированном Jupyter Notebook. Исходные данные, требования к содержанию отчета и критерии оценивания вы найдете в следующих разделах. Исходные данные Мы подготовили для вас несколько наборов данных (по вариантам). Ваш вариант указан в журнале https://1drv.ms/x/s!AjcuTjL4sOrs279fwEZZxdSa7m0jag?e=dUlKqG Наборы данных и их описание доступны по ссылке: https://disk.yandex.ru/d/MYiqvnXjVZ9Avg Вместо выполнения назначенного вам варианта, вы можете разработать с использованием Python блокнот для решения реальной прикладной задачи в сфере логистики, либо задачи, связанной с вашей учебной или общественной деятельностью, если такая задача требует применения анализа и визуализации данных. Данные для работы в этом случае вам необходимо собрать самостоятельно. Если вы хотите работать со своим набором данных – согласуйте задачу со мной, для этого пришлите описание предполагаемой задачи и данных по email ( postlogist@gmail.com ). Примеры отчетов С примером отчета по заданию можно познакомиться здесь Еще несколько более сложных, но и более интересных примеров разведочного анализа данных: - Climatology of Atlantic Hurricanes by Dean D. Churchill - Geography of American Musicians by Stefan Zapf Структура отчета Все этапы подготовки данных и анализа должны быть отражены в HTML-отчете, полученном при помощи команды File>Download as… HTML в Jupyter Notebook. Перед загрузкой выполните команду: Kernel>Restart & Run All. Проверьте, все ли нормально с результатами расчетов. Если у вас есть ошибки в блокноте, то последующие ячейки не запустятся и мы не сможем проверить результат. Ваш отчет должен включать следующие разделы: 1) Заголовок и сведения об авторе (ФИО полностью, группа). 2) Аннотация – краткое (2-3 предложения) описание того, какая задача решена в вашем исследовании и какие результаты получены 3) Введение – постановка задачи и описание набора данных, если собирали данные сами – ссылки на источники. 4) Подготовка данных к анализу – в этот раздел поместите код для загрузки данных, а также проверку технического качества (обработка пропусков, изменение форматов, работа с уровнями факторов и т.п., фильтрация или подвыборка). Многие представленные для анализа наборы данных содержат большое количество пропусков. Вдумчиво подходите к обработке пропусков. Механистический подход к выбору стратегии обработки может привести к большой потере или искажению данных. Также имеет обрабатывать пропуски только в тех переменных, которые вы используете в своем анализе, чтобы сэкономить время. 5) Разведочный анализ данных – в этом разделе следует отразить ваши мысли, гипотезы и результаты их проверки в ходе поиска и анализа зависимостей в данных. В большинстве заданий мы предложили вам несколько вопросов для исследования. Ориентируйтесь на них, или предложите свои, в соответствии с тем, что вы видите в данных. Раздел должен быть структурирован на подразделы при помощи заголовков. Вы можете использовать здесь «черновые» графики и не тратить много времени на их оформление, однако корректность выбора способа визуализации в зависимости от вида данных и решаемой задачи будет оцениваться. Обязательно следует описывать ваши предположения и комментировать полученные результаты. Вы можете оставлять в отчете «тупиковые» ветви вашего анализа – гипотезы, которые не нашли подтверждения в данных. При оформлении кода придерживайтесь рекомендаций PEP 8 6) Итоговые результаты и выводы В этом разделе необходимо поместить три визуализации, которые наилучшим образом отражают результаты вашего исследования. Эти визуализации должны быть оформлены максимально наглядным образом (подберите эффективную палитру, используйте аннотации и инструменты для сравнения, «отполируйте» названия и метки на графике, выделите наиболее важные элементы для привлечения внимания к ним и т.п.). Вы можете повторить визуализации, которые уже были включены в раздел «Разведочный анализ», или сделать новые. Постарайтесь, чтобы ваша идея была понятна аудитории уже при просмотре визуализации, и для понимания не требовалось изучать ваше описание и, тем более, код. В выводах следует отразить и интерпретировать основные результаты, полученные вами в ходе разведочного анализа. Какие гипотезы подтвердились, а какие – нет. Как эти результаты могут быть использованы, и какие ограничения при этом следует учесть. По желанию, вы можете также отразить трудности, которые встретились вам в процессе анализа, а также указать источники/материалы, которые помогли вам их преодолеть. Критерии оценивания работы Качество кода – 15% Критерий Требования Код работает? К рассмотрению принимаются только отчеты, полученные при помощи преобразования блокнота Jupyter в формат HTML. Все ошибки, препятствующие этому, надо устранить Используются лучшие практики? При написании кода используются пробелы, переводы строки и отступы, а также комментарии чтобы сделать код легко читаемым. Используются рекомендации PEP 8 . Не используются «зашитые» в код константы – например, когда для визуализации опорной линии для среднего в коде используется вручную введенное число. Вместо этого стоит использовать функцию mean(). Качество оформления отчета – 25% Критерий Требования Документ имеет понятную структуру? Используются заголовки и различные приемы форматирования, доступные в Markdown, чтобы сделать структуру отчета понятной. Пояснения и выводы по ходу анализа написаны в виде Markdown текста, а не в комментариях. Нет громоздкого вывода Python? В отчете нет громоздкого вывода – например, очень длинных таблиц или текстового вывода Python Качество разведочного анализа -30% Критерий Требования Проведена оценка качества данных? После загрузки данных выполнена проверка на наличие пропущенных значений, выполнены необходимые операции по подготовке к анализу (отбор данных, перекодирование уровней фактора, замена или фильтрация пропущенных или некорректных значений и т.п.) В ходе анализа документируются гипотезы и выводы? Ход анализа поясняется в виде Markdown текста. Между блоками кода регулярно включаются пояснения – например, проверяемые гипотезы и интерпретация полученных результатов. Логика анализа понятна? Ход анализа подчиняется логике, которую можно понять. Выводы и решения соответствуют визуализациям, полученным в результате выполнения кода. Последующие шаги анализа определяются полученными до этого результатами. Анализ достаточно полный? В отчете используются методы для анализа распределений, а также зависимостей между двумя и более переменными разного вида (количественные, категориальные). Отчет содержит как минимум 10 визуализаций. Методы анализа применяются корректно? Используются уместные в данной ситуации статистические показатели и способы визуализации данных. Переменные, к которым применяются методы анализа, не перепутаны. Визуализации наглядно передают зависимости в данных. Качество итоговых визуализаций и выводов – 30% Критерий Требования Раздел присутствует в отчете? В отчете содержится раздел с итоговыми визуализациями и выводами. В него включены три визуализации и пояснения к ним, а также общий вывод. Итоговые визуализации передают максимально наглядно основные результаты анализа? Включенные в раздел графика тщательно подобраны и отражают интересные зависимости в данных. График можно понять, не обращаясь к тексту отчета или коду. Выполняются по крайней мере два критерия из списка: - Визуализации содержат сравнения - Визуализации позволяют выделить тренды - Визуализации понятны широкой аудитории - Визуализации поясняют сложную зависимость, обнаруженную в данных - Визуализации позволяют аудитории усвоить большой объем информации - Визуализации отражают разрыв между ожиданиями/восприятием и реальностью Графики хорошо оформлены? Графики содержат понятные и информативные названия и метки. Указаны единицы измерения величин. Диапазон и шкала координатных осей позволяют легко видеть данные. Результаты объяснены? Обсуждение и выводы на основе визуализаций описаны в тексте отчета. Текст пояснений соответствует тому, что изображено на графиках. Описана применимость результатов и ограничения В выводах описано, как можно применить полученные результаты, и какие ограничения связаны с используемыми данными и принятыми в процессе анализа допущениями. Отправка работы на проверку Отчет по заданию необходимо отправить на проверку не позднее 4 апреля, загрузив ее в задание в Moodle. Защита работ будет проводиться в формате собеседования 5 апреля. Это задание выполняется индивидуально. Нельзя делиться с коллегами своими решениями. При обнаружении похожих работ результаты будут аннулированы всем соучастникам. Перед отправкой, просмотрите полученный HTML-отчет на предмет технических проблем (например, читаемости кодировки при открытии в браузере, не выполненных из-за ошибок ячеек), а также сверьтесь с критериями оценивания |