<aside> <img src="/icons/condense_yellow.svg" alt="/icons/condense_yellow.svg" width="40px" /> Python | 数学 | 统计 | 概率 | 分布 | 正态 | 检验 | 频率 | 密度图 | 箱须图 | 分位数图 | 茎叶图 | 胶卷 | 直方图 | 样本 | 中位数 | 分位数 | 偏度 | 峰度指数 | 预测 | 灾害 | 分布表 | 车型 | 汽缸 | 产地 | 匝径 | 马力 | 油耗 | 平均值 | 标准差 | 转弯直径 | 系数 | 加速 | 活塞 | 循环 | 汇总 | 正态性假设 | 铝销 | 尺寸 | 参考分布 | 蚀刻速率 | 自举公差区间 | 连续变量 | 太阳能电池 | 短路电流 | 拟合优度 | 置信区间 | 陶瓷 | 瑕疵

</aside>

🎯要点

✂️梗概

🍇Python皮尔逊相关系数

皮尔逊相关系数是两个变量之间线性关系的强度和方向的度量。用r表示，范围为-1到1。-1表示完全负相关，0表示不相关，1表示完全正相关。

皮尔逊相关公式：

$$ r=\frac{\sum\left(x-m_x\right)\left(y-m_y\right)}{\sqrt{\sum\left(x-m_x\right)^2 \sum\left(y-m_y\right)^2}} $$

换句话说，如果两个变量具有较高的正相关性，则意味着当一个变量增加时，另一个变量也趋于增加。另一方面，如果它们具有较高的负相关性，则意味着当一个变量增加时，另一个变量趋于减少。

例如，假设我们有一组学生的学习时数和考试成绩的数据。我们可以利用皮尔逊相关系数来判断这两个变量之间是否存在相关关系。如果存在正相关（r > 0），我们可以得出结论，学习越多的学生往往考试成绩越高。如果存在负相关（r < 0），我们可以得出结论，学习越多的学生考试成绩往往越低。在Python中，我们可以使用“scipy.stats”模块中的“pearsonr”函数计算皮尔逊相关系数。如下例：

 from scipy.stats import pearsonr
 
 hours_studied = [5, 10, 15, 20, 25]
 exam_scores = [60, 70, 80, 90, 100]
 
 r, p_value = pearsonr(hours_studied, exam_scores)
 
 print("Pearson correlation coefficient:", r)

输出：

 Pearson correlation coefficient: 0.9999999999999999

在此示例中，学习时间和考试成绩之间存在完美的正相关关系 (r = 1)。请注意，“pearsonr”函数还返回一个 p 值，它是相关系数统计显着性的度量。我们不会在这里详细介绍 p 值，但一般来说，较低的 p 值表示反对原假设的证据更强（即没有相关性）。皮尔逊相关系数是两个变量之间线性关系的度量。范围为-1到1，其中-1表示完全负线性相关，0表示没有线性相关，1表示完全正线性相关。

为了使用 Scipy 的“pearsonr”函数计算皮尔逊相关系数，我们需要两个数据数组来表示我们想要比较的两个变量。该函数返回两个值：相关系数和 p 值。相关系数告诉我们两个变量之间的线性关系有多强。值越接近-1或1表示线性关系越强，而值越接近0表示线性关系越弱。

p 值告诉我们相关系数是否具有统计显着性。如果 p 值小于我们选择的显着性水平（通常为 0.05），我们可以得出结论，两个变量之间存在显着的线性关系。

Scipy 是一个功能强大的 Python 库，为科学计算提供各种工具。 Scipy 中提供的众多函数之一是 Pearsonr，它用于计算两个数据数组之间的 Pearson 相关系数。皮尔逊相关系数，也称为皮尔逊 r，是两个变量之间线性关系的度量。范围为-1到1，其中-1表示强负相关，0表示无相关，1表示强正相关。在Scipy中使用Pearsonr函数，我们需要从scipy.stats模块导入它。这是一个例子：

 from scipy.stats import pearsonr
 
 x = [1, 2, 3, 4, 5]
 y = [5, 4, 3, 2, 1]
 
 # Calculate Pearson's r
 corr_coef, p_value = pearsonr(x, y)
 
 print("Pearson correlation coefficient:", corr_coef)
 print("p-value:", p_value)

在此示例中，我们有两个数据数组“x”和“y”。然后，我们将这些数组传递给“pearsonr”函数，并将结果存储在“corr_coef”和“p_value”中。 “corr_coef”变量包含 Pearson 相关系数，而“p_value”变量包含双尾 p 值。值得注意的是，为了使皮尔逊相关系数有意义，两个变量都应该呈正态分布。如果不满足此假设，其他相关系数（例如斯皮尔曼等级相关系数）可能更合适。

假设我们有一个包含三个变量的数据集：x、y 和 z。我们可以使用嵌套 for 循环和“pearsonr”函数来计算所有可能的变量对之间的皮尔逊相关系数。