探索性数据分析

探索性数据分析(EDA)是一种分析和调查数据集以了解数据特征的方法。在这个研究案例中,我们将使用来自 Kaggle 的数据集,亚马逊 2009-2019 年畅销书 50 强来制作一个简单的 EDA 故事 -2019)。 在此,我们想了解亚马逊畅销书的性质,以了解 2009-2019 年用户对阅读的偏好。

$$ \begin{array}{rrrrrrrr} & \text { Name } & \text { Author } & \text { User Rating } & \text { Reviews } & \text { Price } & \text { Year } & \text { Genre } \\\hline 0 & \text { 10-Day Green Smoothie Cleanse } & \text { J Smith } & 4.7 & 17350 & 8 & 2016 & \text { Non Fiction } \\1 & \text { 11/22/63: A Novel } & \text { Stephen King } & 4.6 & 2052 & 22 & 2011 & \text { Fiction } \\2 & 12 \text { Rules for Life: An Antidote to Chaos } & \text { Jordan B. Peterson } & 4.7 & 18979 & 15 & 2018 & \text { Non Fiction } \\3 & 1984 \text { (Signet Classics) } & \text { George Orwell } & 4.7 & 21424 & 6 & 2017 & \text { Fiction } \\4 & 5,000 \text { Awesome Facts (About Everything!) (Natio... } & \text { National Geographic Kids } & 4.8 & 7665 & 12 & 2019 & \text { Non Fiction }\end{array} $$

数据集

查看数据集示例,有许多与 2009 年至 2019 年在亚马逊销售的畅销书的标题和作者相关的信息。 除了标题和作者之外,数据中还有其他元素,例如用户评分、评论、价格、年份和书籍类型。

$$ \begin{array}{|l|l|l|l|}\hline & \text { Price } & \text { Reviews } & \text { User Rating } \\\hline \text { Count } & 550 & 550 & 550 \\\hline \text { Mean } & 13.1 & 11953.28 & 4.61 \\\hline \text { Std } & 10.84 & 11731.13 & 0.22 \\\hline \text { Min } & 0 & 37 & 3.3 \\\hline 25 \% & 7 & 4058 & 4.5 \\\hline 50 \% & 11 & 8580 & 4.7 \\\hline 75 \% & 16 & 17253.25 & 4.8 \\\hline \text { Max } & 105 & 87841 & 4.9 \\\hline\end{array} $$

Python 分析数据集

数值数据行为

简述:使用Python探索畅销图书的评价和评分,直方图显示。

#distribution type books that goes hits by year (fiction / non fiction ) 
df_books = df.groupby(['Genre','Year']).agg({'Name':'nunique'}).reset_index()

ax = sns.barplot(x="Year", y="Name", hue='Genre', data=df_books)
sns.set(rc={'figure.figsize':(15,9)})
ax.set(xlabel='Year', ylabel='Total Books')

autolabel(ax.patches, labels= df_books.Name, height_factor=1.02)
ax.legend(loc=1, bbox_to_anchor=(1.0,1.1))

plt.title('Distribution of Total Books by Genre per Year') # Set the title

简述:Python 呈现畅销图书的价格密度图。利用箱线图分析来查看畅销书价格和评级每年的均值和中位数分布。创建每年总评论的可视化。创建基于总评论的密集排名作者。使用词云探索畅销书的标题数据。

源代码和数据集

探索性数据分析(EDA)用例

Python探索性数据分析(EDA)暴力密码猜测攻击网站登录异常检测策略

https://embed.notionlytics.com/wt/ZXlKM2IzSnJjM0JoWTJWVWNtRmphMlZ5U1dRaU9pSlhiRWhvWlV4VVQxbHNjMlZYV2tKbU9URndaU0lzSW5CaFoyVkpaQ0k2SWpnNU1tUmhZekE1T0RVd1lUUXdOR05pTXpKa056QmhZV1JtWXpFNU4yRXdJbjA9