在此,我们将分析影响购买者决定的各种因素。

导入数据

要开始实际的数据分析,我们需要导入一些必要的包。由于其中一个包需要安装,第一步是在 Anaconda Prompt 中运行以下命令:要开始实际的数据分析,我们需要导入一些必要的包。由于其中一个包需要安装,第一步是在 Anaconda Prompt 中运行以下命令:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn import preprocessing
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings("ignore")
df= pd.read_csv("<https://mycontent.com/>"\\
                "tdw"\\
                "shopping.csv")
df.head()

探索性数据分析

在您的典型数据科学项目中,您的大部分时间将花在调查数据以发现隐藏的模式和异常值上,通常是通过将它们绘制在可视化中。此过程称为探索性数据分析 (EDA),通过汇总统计数据,您可以发现底层数据结构并测试您的假设。

我们可以将探索性数据分析分为三个部分:

单变量分析

分析网站上客户会话的分布

您将考虑客户在一周的几天内的分布,以确定客户是在周末还是工作日更活跃。使用 seaborn 为 DataFrame 的周末列绘制计数图

sns.countplot(df['Weekend'])
plt.title('Weekend Session Distribution', fontsize = 20)
plt.show()

分析客户的浏览器和操作系统分布

使用 DataFrame 的 Browser 列绘制计数图:

sns.countplot(df['Browser'])
plt.title('Browser wise session Distribution', fontsize = 20)
plt.show()

折叠目录

源代码