«Делопроизводство кадровой службы» Документоведение и архивоведение. ИПЗ_ДО_ДОУ_Б_01_3_202. Итоговое практическое задание по дисциплине Информатика и основы информационнокоммуникационных технологий

Название	Итоговое практическое задание по дисциплине Информатика и основы информационнокоммуникационных технологий
Анкор	«Делопроизводство кадровой службы» Документоведение и архивоведение
Дата	13.06.2022
Размер	432.74 Kb.
Формат файла
Имя файла	ИПЗ_ДО_ДОУ_Б_01_3_202.docx
Тип	Документы #589144

Российский государственный социальный университет

ИТОГОВОЕ ПРАКТИЧЕСКОЕ ЗАДАНИЕ

по дисциплине «Информатика и основы информационно-коммуникационных технологий»

ФИО студента	Кудряшова Дарья Сергеевна
Направление подготовки	«Делопроизводство кадровой службы» Документоведение и архивоведение
Группа	ДОУ-Б-01-З-2021-2_ДИСТАНТ

Москва

2022

Читаем данные из датасета:

Мы видим, что датасет состоит из 13 столбцов, численными являются только последние 2 колонки долгота(Longitude) и широта (Latitude). Оставшиеся столбцы обозначают:

- Brand – бренд, под которым ресторан представлен

- Store Number – номер ресторана

- Store Name - название ресторана

- Ownership Type – тип собственности

- Street Address – адрес ресторана

- City – город

- State/Province – Штат/район/провинция

- Country – страна

- Postcode – почтовый индекс

- Phone Number – телефонный номер

- Timezone – часовой пояс

Теперь очистим наши данные.

Для этого построим график, который отражает пустые значения:

Мы видим, что пропущенные данные присутствуют в основном в столбце телефонного номера и в почтовом индексе.

Поэтому мы не будем рассматривать данные признаки в нашем анализе и очистим наши данные от пустых значений:

Также проверим имеются ли в наших данных повторяющиеся строки:

У нас не имеется повторяющихся строчек.

У нас всего 2 численные характеристики, поэтому рассчитаем для них основные статистики:

Здесь: count – количество значений, mean – среднее значение (мат. ожидание), std – стандартное отклонение, min – минимальное значение, max – максимальное, 25% - нижний квартиль, 50% - медиана, 75% - верхний квартиль.

Визуализация данных.

Построим график распределения ресторанов по городам с наибольшим количеством ресторанов (топ 20):

Выведем список городов, чтобы было понятно, что за город скрывается на 1 месте:

Мы видим, что на первом месте китайский город Шанхай.

Теперь выведем распределение ресторанов по часовым поясам (топ 20):

Очевидно, преобладает часовой пояс Нью-Йорка.

Проверим гипотезы.

Гипотеза 1: Наибольшее число ресторанов расположено в Американском континенте (Северная + Южная Америка).

Принимаем данную гипотезу:

Гипотеза 2: Все рестораны Starbucks представлены под брендом Starbucks.

Отвергаем данную гипотезу:

Мы видим, что рестораны также представлены под брендами 'Teavana', 'Evolution Fresh', 'Coffee House Holdings'.

Гипотеза 3: Наибольшее число ресторанов расположено в США

Принимаем данную гипотезу:

Гипотеза 4: Наименьшее количество ресторанов в новой Зеландии.

Принимаем гипотезу:

Также можем заметить, что одинаково минимальное количество (1) ресторанов находится в Колумбии, Финляндии, Андорре, Бельгии, Чили, Ливане.