Это учебный проект для закрепления знаний по pandas, geopandas и matplotlib. В проекте я пытаюсь проанализировать зависимость частоты вызовов такси от времени. Вдохновлен проектом журнала КОД (https://thecode.media/big-data-taxi/), но код переписан в соответствии с имеющимися знаниями/умениями + дополнен.
В работе используется датасет на 1 028 136 записей с записями вызовов такси Uber в США (Нью-Йорк) за сентябрь 2014 года, где хранятся:
- дата и время вызова;
- координаты, откуда клиент вызвал такси;
- порядковый номер местной станции Uber (5 станций).
Для отображения данных на местности использован набор данных с границами Нью-Йорка (https://data.cityofnewyork.us/City-Government/Borough-Boundaries/tqmj-j8zm).
Смотрим распределение вызовов в течение месяца:
Можем предположить, что спрос увеличивается к выходным. Для этого построим гистограмму распределения в зависимости от дня недели (на изображении дни недели указаны от 0 до 6, где 0 - понедельник):
На гистограмме мы видим, что спрос обычно увеличивается в пятницу и субботу и снижается к воскресенью. Кроме того, спрос повышается во вторник.
Посмотрим, как выглядит спрос на такси в течение суток:
Мы видим два всплеска: утром (07-08 утра, когда все спешат на работу) и дневной, который начинается примерно в 15 часов и продолжает расти к вечеру (в 18 часов - самый пик нагрузки), с 19 часов начинается спад, вместе с тем, нагрузка на такси остается высокой до 22 часов.
Посмотрим количество вызовов в разрезе каждой из станций:
Каждый автомобиль Uber привязан к своей станции. Видно, что существует очень большая разница в количестве вызовов, на станцию B02617 (она же Weiter) приходится больше всего вызовов.
Также для распределения по станциям построено графическое представление на местности.
Изначальный план - разместить точки всех 5ти станций на одном графике, однако в процессе реализации выяснилось, что при наложении слоев один перекрывает другой и результат нерелевантен, более того, все станции, к которым привязаны автомобили не относятся к какому-либо району города, а выполняют заказы, поступившие из любой его точки. Поэтому представлены графики в разрезе каждой станции.
Продолжаю изучение...
Проблемы:
- картинки сохранены с помощью Pycharm, при сохранении их через Jupyter меняется формат - проблема решена, необходимо задать фон основной фигуре