获悉以下详情,点击 指点迷津 | Brief 咨询。
均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一,用于衡量真实值或预测值与观测值或估计值之间的差异。
估计器 $\hat{\theta}$ 相对于估计参数 $\theta$ 的 RMSD 定义为均方误差的平方根:
$$ \operatorname{RMSD}(\hat{\theta})=\sqrt{\operatorname{MSE}(\hat{\theta})}=\sqrt{ E \left((\hat{\theta}-\theta)^2\right)} $$
对于无偏估计量,RMSD 是方差的平方根,称为标准差。
如果 $X_1,$ $\ldots$, $X_n$ 是具有真实平均值 $x_0$ 的总体样本,则该样本的 RMSD 为
$$ RMSD =\sqrt{\frac{1}{n} \sum_{i=1}^n\left(X_i-x_0\right)^2} $$
回归因变量 $y_t$ 的时间 t 的预测值 $\hat{y}_t$ 的 RMSD(观察到 T 次的变量)针对 T 不同的预测进行计算,作为偏差平方平均值:
$$ RMSD =\sqrt{\frac{\sum_{t=1}^T\left(y_t-\hat{y}_t\right)^2}{T}} $$
平均绝对误差是对表达相同现象的成对观测值之间的误差的度量。 Y 与 X 的示例包括预测与观察的比较、后续时间与初始时间的比较以及一种测量技术与替代测量技术的比较。 平均绝对误差的计算方式为绝对误差之和除以样本大小:
$$ MAE =\frac{\sum_{i=1}^n\left|y_i-x_i\right|}{n}=\frac{\sum_{i=1}^n\left|e_i\right|}{n} $$
因此,它是绝对误差 $\left|e_i\right|=\left|y_i-x_i\right|$ 的算术平均值,其中 $y_i$ 是预测值,$x_i$ 是真实值。替代的公式可以包括相对频率作为权重因子。平均绝对误差使用与测量数据相同的尺度。这被称为与尺度相关的精度测量,因此不能用于在使用不同尺度的预测值之间进行比较。平均绝对误差是时间序列分析中预测误差的常见度量,有时与更标准的平均绝对偏差定义相混淆。
两种误差示例:
import pandas as pd
from sklearn.linear_model import LinearRegression
sal_data={"年限":[2,2.2, 2.8, 4, 7, 8, 11, 12, 21, 25],
"薪水": [7, 8, 11, 15, 22, 29, 37 ,45.7, 49, 52]}
df=pd.DataFrame(sal_data)
df.head(3)
$$ \begin{array}{rrr} \hline & 年限 & 薪水 \\ \hline 1 & 2.0 & 7.0 \\ \hline 2 & 2.2 & 8.0 \\ \hline 3 & 2.8 & 11.0 \\ \hline \end{array} $$
X=df[['年限]]
y=df.Salary
lm=LinearRegression()
lm.fit(X,y)
yp=lm.predict(X)
print(yp)
[12.23965934 12.64846842 13.87489568 16.32775018 22.45988645 24.50393187 30.63606813 32.68011355 51.07652234 59.25270403]
现在,将通过绘制预测(yp)和实际薪资(y)来评估我们的模型。