<aside> <img src="/icons/condense_yellow.svg" alt="/icons/condense_yellow.svg" width="40px" /> Python | 数学 | 统计 | 概率 | 分布 | 正态 | 检验 | 频率 | 密度图 | 箱须图 | 分位数图 | 茎叶图 | 胶卷 | 直方图 | 样本 | 中位数 | 分位数 | 偏度 | 峰度指数 | 预测 | 灾害 | 分布表 | 车型 | 汽缸 | 产地 | 匝径 | 马力 | 油耗 | 平均值 | 标准差 | 转弯直径 | 系数 | 加速 | 活塞 | 循环 | 汇总 | 正态性假设 | 铝销 | 尺寸 | 参考分布 | 蚀刻速率 | 自举公差区间 | 连续变量 | 太阳能电池 | 短路电流 | 拟合优度 | 置信区间 | 陶瓷 | 瑕疵

</aside>

🎯要点

🎯统计数学和代码计算:🖊可视化活塞杆长时间运行伸缩误差 | 🖊可视化三种仪器测量准确度 | 🖊可视化陶瓷板瑕疵数量的累积相对频率分布 | 🖊原木纱强度累积相对分布、密度图、箱须图、分位数图、茎叶图 | 🖊胶卷测量速度直方图,计算其最小/最大样本、第一个四分位数样本、样本中位数、第三个四分位数样本 、8 /9/99分位数、偏度和峰度指数,将预测比例与区间的实际频率进行比较 | 🖊煤矿灾害次数频率分布表 | 🖊不同车型汽缸数、原产地、匝径、马力和油耗频率分布,比较(北美、欧洲和亚洲车型)油耗的平均值和标准差,计算北美车型转弯直径的变异系数,比较北美和日本车型转弯直径平均值和几何平均值,并排呈现油耗箱线图,对比德国和日本车型加速时间 | 🖊计算活塞循环茎叶图中五个汇总统计量,循环时间修整平均值和修整标准偏差 | 🖊活塞循环时间数据的正态性假设的柯尔莫哥洛夫-斯米尔诺夫检验 | 🖊铝销各种尺寸经验参考分布 | 🖊芯片蚀刻速率直方图显示分布和重采样均值 | 🖊混合微电路中电阻覆盖率置信区间检测和比较,计算比较三种微电路样本方差,方差的单向分析 | 🖊原木纱强度伯努利样本的自举公差区间 | 🖊活塞循环时间连续变量的公差区间 | 🖊单样本 t 检验太阳能电池的平均短路电流否显着小于或大于 4 安培 | 🖊确定原木纱强度 (0.95,0.95) 公差区间 | 🖊计算绘制汽车匝径的频率分布,间隔为 k = 11。 对数据进行正态分布拟合,并对拟合优度进行卡方检验 | 🖊计算汽车油耗样本,图形确认采样是否近似正态分布并检查标准差 | 🖊计算原木纱强度样本平均值的置信区间,检查置信区间覆盖平均值的样本比例 | 🖊计算汽车平均转弯直径样本是否复合要求,预估P值 | 🖊计算活塞循环时间样本均值和样本标准的 95% 置信区间偏差,以直方图显示。🎯回归模型 | 🎯有限总体数量估计 | 🎯时间序列分析。

✂️梗概

🍇Python皮尔逊相关系数

皮尔逊相关系数是两个变量之间线性关系的强度和方向的度量。 用r表示,范围为-1到1。-1表示完全负相关,0表示不相关,1表示完全正相关。

皮尔逊相关公式:

$$ r=\frac{\sum\left(x-m_x\right)\left(y-m_y\right)}{\sqrt{\sum\left(x-m_x\right)^2 \sum\left(y-m_y\right)^2}} $$

换句话说,如果两个变量具有较高的正相关性,则意味着当一个变量增加时,另一个变量也趋于增加。 另一方面,如果它们具有较高的负相关性,则意味着当一个变量增加时,另一个变量趋于减少。

例如,假设我们有一组学生的学习时数和考试成绩的数据。 我们可以利用皮尔逊相关系数来判断这两个变量之间是否存在相关关系。 如果存在正相关(r > 0),我们可以得出结论,学习越多的学生往往考试成绩越高。 如果存在负相关(r < 0),我们可以得出结论,学习越多的学生考试成绩往往越低。 在Python中,我们可以使用“scipy.stats”模块中的“pearsonr”函数计算皮尔逊相关系数。 如下例:

 from scipy.stats import pearsonr
 
 hours_studied = [5, 10, 15, 20, 25]
 exam_scores = [60, 70, 80, 90, 100]
 
 r, p_value = pearsonr(hours_studied, exam_scores)
 
 print("Pearson correlation coefficient:", r)
 

输出:

 Pearson correlation coefficient: 0.9999999999999999

在此示例中,学习时间和考试成绩之间存在完美的正相关关系 (r = 1)。 请注意,“pearsonr”函数还返回一个 p 值,它是相关系数统计显着性的度量。 我们不会在这里详细介绍 p 值,但一般来说,较低的 p 值表示反对原假设的证据更强(即没有相关性)。皮尔逊相关系数是两个变量之间线性关系的度量。 范围为-1到1,其中-1表示完全负线性相关,0表示没有线性相关,1表示完全正线性相关。

为了使用 Scipy 的“pearsonr”函数计算皮尔逊相关系数,我们需要两个数据数组来表示我们想要比较的两个变量。该函数返回两个值:相关系数和 p 值。相关系数告诉我们两个变量之间的线性关系有多强。值越接近-1或1表示线性关系越强,而值越接近0表示线性关系越弱。

p 值告诉我们相关系数是否具有统计显着性。 如果 p 值小于我们选择的显着性水平(通常为 0.05),我们可以得出结论,两个变量之间存在显着的线性关系。

Scipy 是一个功能强大的 Python 库,为科学计算提供各种工具。 Scipy 中提供的众多函数之一是 Pearsonr,它用于计算两个数据数组之间的 Pearson 相关系数。皮尔逊相关系数,也称为皮尔逊 r,是两个变量之间线性关系的度量。 范围为-1到1,其中-1表示强负相关,0表示无相关,1表示强正相关。在Scipy中使用Pearsonr函数,我们需要从scipy.stats模块导入它。这是一个例子:

 from scipy.stats import pearsonr
 
 x = [1, 2, 3, 4, 5]
 y = [5, 4, 3, 2, 1]
 
 # Calculate Pearson's r
 corr_coef, p_value = pearsonr(x, y)
 
 print("Pearson correlation coefficient:", corr_coef)
 print("p-value:", p_value)
 

在此示例中,我们有两个数据数组“x”和“y”。 然后,我们将这些数组传递给“pearsonr”函数,并将结果存储在“corr_coef”和“p_value”中。 “corr_coef”变量包含 Pearson 相关系数,而“p_value”变量包含双尾 p 值。值得注意的是,为了使皮尔逊相关系数有意义,两个变量都应该呈正态分布。 如果不满足此假设,其他相关系数(例如斯皮尔曼等级相关系数)可能更合适。

假设我们有一个包含三个变量的数据集:x、y 和 z。我们可以使用嵌套 for 循环和“pearsonr”函数来计算所有可能的变量对之间的皮尔逊相关系数。