探索性数据分析(EDA)

在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法。 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们超出正式建模的内容,从而对比传统的假设检验。

EDA 不同于初始数据分析 (IDA),更侧重于检查模型拟合和假设检验所需的假设,并根据需要处理缺失值和进行变量转换。 EDA 包含 IDA。

https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lKa1pUWmhOalUwTnpJeU1UazBOV0UyT1dVMFpUTTBORGt5WkdVeVlXUmpNaUlzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklsZHNTR2hsVEZSUFdXeHpaVmRhUW1ZNU1YQmxJbjA9

折叠内容

摘录:描述性统计

import matplotlib.pyplot as plt
from IPython.display import Math, Latex
from IPython.core.display import Image
import seaborn as sns

sns.set(color_codes=True)
sns.set(rc={'figure.figsize':(10,6)})
# Uniform Distribution
from scipy.stats import uniform

number = 10000
start = 20
width = 25

uniform_data = uniform.rvs(size=number, loc=start, scale=width)
axis = sns.distplot(uniform_data, bins=100, kde=True, color='skyblue', hist_kws={"linewidth": 15})
axis.set(xlabel='Uniform Distribution ', ylabel='Frequency')

折叠内容

探索性数据分析(EDA) | 用例