分析共享单车服务的数据,以及如何根据时间特征和天气条件识别使用模式。 此外,将对可用数据应用可视化分析、假设检验和时间序列分析等概念。
从公司的角度来看,在特定时间范围内确定特定区域的预期自行车需求可以显着提高收入和客户满意度。 此外,可以优化自行车搬迁以进一步降低运营成本。 从用户的角度来看,最重要的因素可能是在最短的等待时间内提供自行车。
https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lJMk56TXdOR05oWW1Rd09XTTBOV0ZsWVdabU4yRTVZelU1TWprMU9HTmlaaUlzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklsZHNTR2hsVEZSUFdXeHpaVmRhUW1ZNU1YQmxJbjA9
请注意,尽管进行的分析与共享单车有关,但所提供的技术可以很容易地转移到其他类型的共享业务模式,例如汽车或电瓶车共享。
首先,我们加载数据并对其进行初步探索。
# imports
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
# load hourly data
hourly_data = pd.read_csv('<https://mycontent.com/>'\\
'Workshops/'\\
'tdAnalysis/'\\
'/data/hour.csv')
# print some generic statistics about the data
print(f"Shape of data: {hourly_data.shape}")
print(f"Number of missing values in the data:\\
{hourly_data.isnull().sum().sum()}")
Shape of data: (17379, 17)
Number of missing values in the data: 0
# get statistics on the numerical columns
hourly_data.describe().T
在此,我们将执行一些预处理步骤,这将使我们能够将数据转换为更易于读取的格式。 请注意,数据预处理和整理是数据分析中最重要的部分之一。 事实上,当数据以正确的方式转换时,可能会出现许多隐藏的模式和关系。