Даты и графики. Import pandas as pd data pd read csv('datasetsvisits csv', sep't')
Скачать 1.38 Mb.
|
Задания1 . import pandas as pd data = pd.read_csv('/datasets/visits.csv', sep='\t') Причиной коротких заездов может быть то, что водители нечаянно заезжают на АЗС, которые не работают по ночам. Если это действительно так, то вы увидите связь между короткими заездами и временем прибытия. Чтобы проверить эту гипотезу, измените тип столбца date_time на более удобный тип для даты. Методом pd.to_datetime() переведите значения столбца date_time в таблице data в объекты datetime. В параметре format= укажите строку, соответствующую текущему формату date_time, с помощью специальных обозначений. Выведите на экран первые пять строк data, чтобы проверить, что получилось. *Поместите в data['date_time'] результат работы метода pd.to_datetime(). В аргументе format должен быть указан формат даты: '%Y%m%dT%H%M%S'. Методом head() выведите на экран первые пять строк data. 2. import pandas as pd data = pd.read_csv('/datasets/visits.csv', sep='\t') Напомним, что в датафрейме записано время UTC. Московское рассчитывают как UTC + 3 часа. Создайте столбец data['local_time'] и сохраните в нём сдвинутое на 3 часа время из столбца data['date_time']. Напечатайте первые 5 строк таблицы data. *Передайте в pd.Timedelta() аргумент hours=3. Первые 5 строк выведите на экран методом head(). 3 import pandas as pd data = pd.read_csv('/datasets/visits.csv', sep='\t') Данные, связанные со временем, лучше округлять до той величины, которой будет достаточно для детального анализа. Чтобы проанализировать взаимосвязь между временем прибытия на АЗС и продолжительностью заезда, точность до минут и секунд не нужна. Округлите время до часов. Выполните следующие шаги: Создайте новый столбец date_hour и передайте ему значения столбца local_time, округлённые до часов. Выведите первые пять строк data, чтобы проверить результаты. *К данным столбца local_time примените метод dt.round(). Передайте методу строку 1H. Присвойте результат столбцу date_hour. 4 import pandas as pd data = pd.read_csv('/datasets/visits.csv', sep='\t') data['date_time'] = pd.to_datetime( data['date_time'], format='%Y-%m-%dT%H:%M:%S' ) data['local_time'] = data['date_time'] + pd.Timedelta(hours=3) Снова создайте переменную sample, записав в неё срез из данных по АЗС с id == '3c1e4c52'. Обратите внимание, что на этот раз в sample войдут все форматы времени. Пользуясь данными sample, постройте график зависимости продолжительности заправки от времени заезда. За основу возьмите соответствующие столбцы time_spent и local_time. Оси X присвойте значения столбца local_time, а оси Y — значения столбца time_spent. Проверьте, всё ли верно отображено на графике: Каждый элемент обозначен точкой. Диапазон оси Y указан от 0 до 1000. Добавлены сетки. Размер графика 12х6 дюймов. *Методом query() получите нужный срез. Сохраните результат в sample. Методу plot() задайте параметры: x, y, ylim, style, grid, figsize. |