Главная страница
Навигация по странице:

  • Заголовок и сведения об авторе

  • Подготовка данных к анализу

  • Разведочный анализ данных

  • Итоговые результаты и выводы В этом разделе необходимо поместить три

  • Качество кода – 15% Критерий Требования Код работает

  • Используются лучшие практики

  • Качество оформления отчета – 25% Критерий Требования Документ имеет понятную структуру

  • Критерий Требования Проведена оценка качества данных

  • Логика анализа понятна

  • Анализ достаточно полный

  • Методы анализа применяются корректно

  • Качество итоговых визуализаций и выводов – 30% Критерий Требования Раздел присутствует в отчете

  • Итоговые визуализации передают максимально наглядно основные результаты анализа

  • Графики хорошо оформлены

  • Результаты объяснены

  • Расчёт ректификационной установки для разделения смеси этанол-ацетон. Разведочный анализ данных в Python


    Скачать 237.98 Kb.
    НазваниеРазведочный анализ данных в Python
    АнкорРасчёт ректификационной установки для разделения смеси этанол-ацетон
    Дата21.05.2023
    Размер237.98 Kb.
    Формат файлаpdf
    Имя файлаassignment_eda_2023.pdf
    ТипКонтрольная работа
    #1148962

    Контрольная работа «Разведочный анализ данных в Python»
    Разведочный анализ – это исследование данных при помощи методов описательной статистики и визуализации с целью выявления зависимостей в них и выдвижения гипотез для последующего углубленного анализа, - например, моделирования. Еще одной целью разведочного анализа является оценка пригодности данных к анализу, выявление наличия в них различных проблем, таких как выбросы, пропущенные или некорректные значения, нарушение допущений статистических моделей, которые предполагается в дальнейшем применять к этим данным.
    В процессе выполнения этого задания вы проведете разведочный анализ предложенного вам, или самостоятельно выбранного набора данных и продемонстрируете свой уровень владения Python для анализа и визуализации данных, а также свою способность интерпретировать полученные результаты и делать выводы на их основе.
    Все этапы подготовки и анализа данных необходимо отразить в HTML-отчете, сгенерированном Jupyter
    Notebook. Исходные данные, требования к содержанию отчета и критерии оценивания вы найдете в следующих разделах.
    Исходные данные
    Мы подготовили для вас несколько наборов данных (по вариантам). Ваш вариант указан в журнале https://1drv.ms/x/s!AjcuTjL4sOrs279fwEZZxdSa7m0jag?e=dUlKqG
    Наборы данных и их описание доступны по ссылке: https://disk.yandex.ru/d/MYiqvnXjVZ9Avg
    Вместо выполнения назначенного вам варианта, вы можете разработать с использованием Python блокнот для решения реальной прикладной задачи в сфере логистики, либо задачи, связанной с вашей учебной или общественной деятельностью, если такая задача требует применения анализа и визуализации данных.
    Данные для работы в этом случае вам необходимо собрать самостоятельно. Если вы хотите работать со своим набором данных – согласуйте задачу со мной, для этого пришлите описание предполагаемой задачи и данных по email (
    postlogist@gmail.com
    ).
    Примеры отчетов
    С примером отчета по заданию можно познакомиться здесь
    Еще несколько более сложных, но и более интересных примеров разведочного анализа данных:
    -
    Climatology of Atlantic Hurricanes by Dean D. Churchill
    -
    Geography of American Musicians by Stefan Zapf
    Структура отчета
    Все этапы подготовки данных и анализа должны быть отражены в HTML-отчете, полученном при помощи команды File>Download as… HTML в Jupyter Notebook. Перед загрузкой выполните команду: Kernel>Restart &
    Run All. Проверьте, все ли нормально с результатами расчетов. Если у вас есть ошибки в блокноте, то последующие ячейки не запустятся и мы не сможем проверить результат.
    Ваш отчет должен включать следующие разделы:
    1)
    Заголовок и сведения об авторе (ФИО полностью, группа).
    2)
    Аннотация – краткое (2-3 предложения) описание того, какая задача решена в вашем исследовании и какие результаты получены
    3)
    Введение – постановка задачи и описание набора данных, если собирали данные сами – ссылки на источники.
    4)
    Подготовка данных к анализу – в этот раздел поместите код для загрузки данных, а также проверку технического качества (обработка пропусков, изменение форматов, работа с уровнями факторов и т.п., фильтрация или подвыборка). Многие представленные для анализа наборы данных содержат
    большое количество пропусков. Вдумчиво подходите к обработке пропусков. Механистический подход к выбору стратегии обработки может привести к большой потере или искажению данных.
    Также имеет обрабатывать пропуски только в тех переменных, которые вы используете в своем анализе, чтобы сэкономить время.
    5)
    Разведочный анализ данных – в этом разделе следует отразить ваши мысли, гипотезы и результаты их проверки в ходе поиска и анализа зависимостей в данных. В большинстве заданий мы предложили вам несколько вопросов для исследования. Ориентируйтесь на них, или предложите свои, в соответствии с тем, что вы видите в данных. Раздел должен быть структурирован на подразделы при помощи заголовков. Вы можете использовать здесь «черновые» графики и не тратить много времени на их оформление, однако корректность выбора способа визуализации в зависимости от вида данных и решаемой задачи будет оцениваться. Обязательно следует описывать ваши предположения и комментировать полученные результаты. Вы можете оставлять в отчете «тупиковые» ветви вашего анализа – гипотезы, которые не нашли подтверждения в данных. При оформлении кода придерживайтесь рекомендаций
    PEP 8 6)
    Итоговые результаты и выводы
    В этом разделе необходимо поместить
    три визуализации, которые наилучшим образом отражают результаты вашего исследования. Эти визуализации должны быть оформлены максимально наглядным образом (подберите эффективную палитру, используйте аннотации и инструменты для сравнения, «отполируйте» названия и метки на графике, выделите наиболее важные элементы для привлечения внимания к ним и т.п.). Вы можете повторить визуализации, которые уже были включены в раздел «Разведочный анализ», или сделать новые. Постарайтесь, чтобы ваша идея была понятна аудитории уже при просмотре визуализации, и для понимания не требовалось изучать ваше описание и, тем более, код.
    В выводах следует отразить и интерпретировать основные результаты, полученные вами в ходе разведочного анализа. Какие гипотезы подтвердились, а какие – нет. Как эти результаты могут быть использованы, и какие ограничения при этом следует учесть.
    По желанию, вы можете также отразить трудности, которые встретились вам в процессе анализа, а также указать источники/материалы, которые помогли вам их преодолеть.

    Критерии оценивания работы
    Качество кода – 15%
    Критерий
    Требования
    Код работает?
    К рассмотрению принимаются только отчеты, полученные при помощи преобразования блокнота Jupyter в формат HTML. Все ошибки, препятствующие этому, надо устранить
    Используются лучшие
    практики?
    При написании кода используются пробелы, переводы строки и отступы, а также комментарии чтобы сделать код легко читаемым. Используются рекомендации
    PEP 8
    . Не используются «зашитые» в код константы – например, когда для визуализации опорной линии для среднего в коде используется вручную введенное число. Вместо этого стоит использовать функцию mean().
    Качество оформления отчета – 25%
    Критерий
    Требования
    Документ
    имеет
    понятную структуру?
    Используются заголовки и различные приемы форматирования, доступные в
    Markdown, чтобы сделать структуру отчета понятной. Пояснения и выводы по ходу анализа написаны в виде Markdown текста, а не в комментариях.
    Нет
    громоздкого
    вывода Python?
    В отчете нет громоздкого вывода – например, очень длинных таблиц или текстового вывода Python
    Качество разведочного анализа -30%
    Критерий
    Требования
    Проведена
    оценка
    качества данных?
    После загрузки данных выполнена проверка на наличие пропущенных значений, выполнены необходимые операции по подготовке к анализу (отбор данных, перекодирование уровней фактора, замена или фильтрация пропущенных или некорректных значений и т.п.)
    В
    ходе
    анализа
    документируются
    гипотезы и выводы?
    Ход анализа поясняется в виде Markdown текста. Между блоками кода регулярно включаются пояснения – например, проверяемые гипотезы и интерпретация полученных результатов.
    Логика
    анализа
    понятна?
    Ход анализа подчиняется логике, которую можно понять. Выводы и решения соответствуют визуализациям, полученным в результате выполнения кода.
    Последующие шаги анализа определяются полученными до этого результатами.
    Анализ
    достаточно
    полный?
    В отчете используются методы для анализа распределений, а также зависимостей между двумя и более переменными разного вида (количественные, категориальные). Отчет содержит как минимум 10 визуализаций.
    Методы
    анализа
    применяются
    корректно?
    Используются уместные в данной ситуации статистические показатели и способы визуализации данных. Переменные, к которым применяются методы анализа, не перепутаны. Визуализации наглядно передают зависимости в данных.
    Качество итоговых визуализаций и выводов – 30%
    Критерий
    Требования
    Раздел присутствует в
    отчете?
    В отчете содержится раздел с итоговыми визуализациями и выводами. В него включены три визуализации и пояснения к ним, а также общий вывод.
    Итоговые визуализации
    передают максимально
    наглядно
    основные
    результаты анализа?
    Включенные в раздел графика тщательно подобраны и отражают интересные зависимости в данных. График можно понять, не обращаясь к тексту отчета или коду. Выполняются по крайней мере два критерия из списка:
    -
    Визуализации содержат сравнения
    -
    Визуализации позволяют выделить тренды
    -
    Визуализации понятны широкой аудитории
    -
    Визуализации поясняют сложную зависимость, обнаруженную в данных
    -
    Визуализации позволяют аудитории усвоить большой объем информации
    -
    Визуализации отражают разрыв между ожиданиями/восприятием и реальностью

    Графики
    хорошо
    оформлены?
    Графики содержат понятные и информативные названия и метки. Указаны единицы измерения величин. Диапазон и шкала координатных осей позволяют легко видеть данные.
    Результаты объяснены? Обсуждение и выводы на основе визуализаций описаны в тексте отчета. Текст пояснений соответствует тому, что изображено на графиках.
    Описана применимость
    результатов
    и
    ограничения
    В выводах описано, как можно применить полученные результаты, и какие ограничения связаны с используемыми данными и принятыми в процессе анализа допущениями.
    Отправка работы на проверку
    Отчет по заданию необходимо отправить на проверку не позднее 4 апреля, загрузив ее в задание в
    Moodle. Защита работ будет проводиться в формате собеседования 5 апреля.
    Это задание выполняется индивидуально. Нельзя делиться с коллегами своими решениями. При обнаружении похожих работ результаты будут аннулированы всем соучастникам.
    Перед отправкой, просмотрите полученный HTML-отчет на предмет технических проблем (например, читаемости кодировки при открытии в браузере, не выполненных из-за ошибок ячеек), а также сверьтесь с критериями оценивания


    написать администратору сайта