Задание Исследовательский анализ и визуализация данных
Скачать 14.11 Kb.
|
Задание 1. Исследовательский анализ и визуализация данных Напишите программу на Python, которая загружает набор данных, выполняет исследовательский анализ этих данных и визуализирует набор зависимостей между атрибутами в вариантах, перечисленных ниже, с помощью библиотек matplotlib и sns. 1. Получить описание набора данных и список атрибутов, получить количество пропущенных значений для каждого атрибута. 2. Обработка отсутствующих значений (удаление строк/удаление атрибутов/изменение значений) 3. Постройте pairplot для пяти признаков из набора данных. Добавьте легенду и подпись для каждого изображения в следующих задачах. 4. Выберите не менее двух атрибутов с определенным распределением значений и покажите это распределение гистограммами hist и kdeplot, jointplot 5. Выберите некоторые из атрибутов и просмотрите корреляцию между ними в виде тепловой карты. Затем создайте тепловую карту, показывающую только высокие значения прямой и обратной корреляции. 6. Выберите три атрибута (с определенным распределением значений), целевую переменную (категориальную) и отобразите для них диаграммы с областями (блочная диаграмма). 7. Визуализируйте некоторую статистику для различных атрибутов, используя следующие инструменты: Violinplot, Countplot, FacetGrid, Stripplot, Swarmplot, Catplot, Pie. Напишите краткий обзор наиболее интересных взаимосвязей, которые вы обнаружили в данных. Выборка данных для задания выбирается исходя из номера Вашей зачетной книжки: • если последняя цифра 0, 3, 6 или 9: Выборка – Лесные пожары (https://archive.ics.uci.edu/ml/datasets/Forest+Fires ); • если последняя цифра 1, 4, или 7: Выборка – Качество вина (https://archive.ics.uci.edu/ml/datasets/Wine+Quality ); winequality-red.csv • если последняя цифра 2, 5, или 8: Выборка – Аренда велосипедов (https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset ), day.csv; Дополнительный пример визуализации: https://www.kaggle.com/heyytanay/stroke-prediction-eda Примеры Youtube: Learn Matplotlib in 6 minutes | Matplotlib Python Tutorial https://www.youtube.com/watch?v=nzKy9GY12yo Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4 Matplotlib Tutorial (Part 1): Creating and Customizing Our First Plots https://www.youtube.com/watch?v=UO98lJQ3QGI Intro to Data Visualization in Python with Matplotlib! (line graph, bar chart, title, labels, size) https://www.youtube.com/watch?v=DAQNHzOcO5A&t=1731s |