我们不仅会使用柯尔莫哥洛夫-斯米尔诺夫检验和假设检验等技术,还会介绍在数据分析和预测建模中广泛使用的新概念,例如线性回归和逻辑回归(预测建模是使用数据模式来预测未来结果的过程) 。这些类型的模型有几个优点,但其中最重要的两个是它们的简单性和可解释性。

https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lKaE1qVXhaamxtWkRFM05UZzBZbUkzWW1VMU0yTXpOR05sTmpCaU5HVXdOQ0lzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklsZHNTR2hsVEZSUFdXeHpaVmRhUW1ZNU1YQmxJbjA9

数据初始分析

我们将通过将数据加载到 Python 中并执行一些简单的分析来开始我们的分析,这将使我们了解数据的类型和数据集的不同特征。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
# pull data from github
bank_data = pd.read_csv("<https://mycontent.com/>"\\
                        "PacktWorkshops/"\\
"thd/"\\
"bank-additional.csv", sep=";")
# visualize the head of the dataset
bank_data.head().T

分析银行数据集中数值特征的分布

将对银行数据集中的数字特征进行简单分析。始终对新数据集,推导基本统计数据对数据分析非常重要。可以获得对数据的一般知识和“感觉”。一个典型的例子是计算年龄列中的最小值和最大值。如果这些值与您的预期不一致(例如,最小年龄为 18 岁,最大年龄在 70-90 岁之间),您应该进一步调查以确定差异的原因。

分析银行数据集中分类特征的分布

数值特征对结果的影响

我们将从解决以下问题开始我们的分析:成功和不成功的营销活动的数字特征是否存在统计学上的显着差异?出于这个原因,我们将创建小提琴图,比较两种结果的数字特征分布(“是”表示成功的营销活动,“否”表示不成功的营销活动):

plt.figure(figsize=(10,18))
for index, col in enumerate(numerical_features):
    plt.subplot(5, 2, index+1)
    sns.violinplot(x=col, y="y", data=bank_data, \\
                   order=["yes", "no"])
plt.savefig("figs/violin_plots_numerical_features.png", \\
            format="png", dpi=500)

数值特征分布差异的假设检验

折叠目录

源代码