«Делопроизводство кадровой службы» Документоведение и архивоведение. ИПЗ_ДО_ДОУ_Б_01_3_202. Итоговое практическое задание по дисциплине Информатика и основы информационнокоммуникационных технологий
Скачать 432.74 Kb.
|
ИТОГОВОЕ ПРАКТИЧЕСКОЕ ЗАДАНИЕ по дисциплине «Информатика и основы информационно-коммуникационных технологий»
Москва 2022 Читаем данные из датасета: Мы видим, что датасет состоит из 13 столбцов, численными являются только последние 2 колонки долгота(Longitude) и широта (Latitude). Оставшиеся столбцы обозначают: - Brand – бренд, под которым ресторан представлен - Store Number – номер ресторана - Store Name - название ресторана - Ownership Type – тип собственности - Street Address – адрес ресторана - City – город - State/Province – Штат/район/провинция - Country – страна - Postcode – почтовый индекс - Phone Number – телефонный номер - Timezone – часовой пояс Теперь очистим наши данные. Для этого построим график, который отражает пустые значения: Мы видим, что пропущенные данные присутствуют в основном в столбце телефонного номера и в почтовом индексе. Поэтому мы не будем рассматривать данные признаки в нашем анализе и очистим наши данные от пустых значений: Также проверим имеются ли в наших данных повторяющиеся строки: У нас не имеется повторяющихся строчек. У нас всего 2 численные характеристики, поэтому рассчитаем для них основные статистики: Здесь: count – количество значений, mean – среднее значение (мат. ожидание), std – стандартное отклонение, min – минимальное значение, max – максимальное, 25% - нижний квартиль, 50% - медиана, 75% - верхний квартиль. Визуализация данных. Построим график распределения ресторанов по городам с наибольшим количеством ресторанов (топ 20): Выведем список городов, чтобы было понятно, что за город скрывается на 1 месте: Мы видим, что на первом месте китайский город Шанхай. Теперь выведем распределение ресторанов по часовым поясам (топ 20): Очевидно, преобладает часовой пояс Нью-Йорка. Проверим гипотезы. Гипотеза 1: Наибольшее число ресторанов расположено в Американском континенте (Северная + Южная Америка). Принимаем данную гипотезу: Гипотеза 2: Все рестораны Starbucks представлены под брендом Starbucks. Отвергаем данную гипотезу: Мы видим, что рестораны также представлены под брендами 'Teavana', 'Evolution Fresh', 'Coffee House Holdings'. Гипотеза 3: Наибольшее число ресторанов расположено в США Принимаем данную гипотезу: Гипотеза 4: Наименьшее количество ресторанов в новой Зеландии. Принимаем гипотезу: Также можем заметить, что одинаково минимальное количество (1) ресторанов находится в Колумбии, Финляндии, Андорре, Бельгии, Чили, Ливане. |