pie title 语言分比
"Python":90
"C/C++":30
pie title 内容分比
"算法模型":90
"数学":30
"地理科学":10
"地震":50
"统计学、贝叶斯":40
"评估指标":30
"地质学":40
高斯过程是机器学习工具箱中的一个强大工具。它们使我们能够通过结合先验知识对数据进行预测。它们最明显的应用领域是用函数拟合数据。这称为回归,例如,用于机器人技术或时间序列预测。但高斯过程不仅限于回归——它们还可以扩展到分类和聚类任务。对于给定的一组训练点,可能有无数个函数可以拟合数据。高斯过程通过为每个函数分配一个概率为这个问题提供了一个优雅的解决方案。这个概率分布的平均值代表了数据最可能的特征。此外,使用概率方法我们可以将预测的置信度合并到回归结果中。
首先,我们将从连续视图转向函数的离散表示:我们感兴趣的不是寻找隐式函数,而是预测具体点处的函数值,我们将其称为测试点 X。那么,我们如何从迄今为止考虑过的多元正态分布中推导出这种函数视图呢?随机过程(例如高斯过程)本质上是一组随机变量。此外,这些随机变量中的每一个都有相应的索引 i。我们将使用此索引来指代我们的 $n$ 维多元分布的第 $i$ 维。
现在,高斯过程的目标是从训练数据中学习这种底层分布。相对于测试数据 $X$,我们将训练数据表示为 $Y$。高斯过程的关键思想是将 X 的底层分布与 Y 一起建模为多元正态分布。这意味着联合概率分布 $P_{X, Y}$ 跨越了我们想要预测的函数的可能函数值空间。请注意,测试和训练数据的联合分布具有 $|X|+|Y|$ 维度。
为了对训练数据进行回归分析,我们将这个问题视为贝叶斯推理。贝叶斯推理的基本思想是随着新信息的出现而更新当前假设。在高斯过程的情况下,此信息是训练数据。因此,我们感兴趣的是条件概率 $P_{X \mid Y}$。最后,我们回想一下,高斯分布在条件下是封闭的——因此 $P_{X \mid Y}$ 也是正态分布的。
现在我们已经了解了高斯过程的基本框架,只剩下一件事:如何建立这个分布并定义平均值 \mu 和协方差矩阵 $\Sigma$ ?协方差矩阵 $\Sigma$ 由其协方差函数 k 确定,后者通常也称为高斯过程的核。
在高斯过程中,我们将每个测试点视为一个随机变量。多元高斯分布的维数与随机变量的维数相同。由于我们想要预测 $|X|=N$ 个测试点处的函数值,因此相应的多元高斯分布也是 $N$ 维的。使用高斯过程进行预测最终归结为从该分布中抽取样本。然后,我们将结果向量的第 $i$ 个分量解释为与第 $i$ 个测试点相对应的函数值。
$$ p(x \mid \pi, \Sigma)=(2 \pi)^{-k / 2}|\Sigma|^{-1 / 2} \exp \left\{-\frac{1}{2}(x-\mu)^{\prime} \Sigma^{-1}(x-\mu)\right\} $$