作者:chen_h
我们都知道学习机器学习时学到的第一个模型就是线性回归。这是一个非常简单,直观和激发我们深入到机器学习的模型。
线性回归可以在几个观点中直观的解释,例如:几何和频率统计。从频率统计的角度来看,通常应该会谈论到贝叶斯。因此从这篇文章中,我们将从贝叶斯的角度来简单分析一下线性规划。
线性回归:回顾
回想一下,在线性回归中,我们希望将输入映射为实数,即
线性回归也是分为好几种的,这取决于它们的成本函数和正则化器。在这篇文章中,我们将来重点关注线性回归 损失函数和
正式的,这种形式我们可以用数学表示为:
其中 是真实值,
这是一个特征向量和权重矩阵的线性组合。上面额外的
当然,我们可以先忽略正则化项,那么我们的损失函数就变成了:
最小化此目标是线性最小二乘问题的定义。
线性回归的频率观点
我们可以将上述模型的回归目标谢伟预测值加上一些误差:
$\hat y = y + \epsilon = W^{T}x + \epsilon $
或者,等价于,我们可以得到误差项的表现形式:
现在,假设我们将回归目标建模为高斯随机变量,即 和
然后,我们的目标就是去找到最佳的 W,我们可以使用最大似然函数(MLE)。由于上述模型是似然的,所以我们可以用如下数学公式描述我们的数据:
高斯分布的概率密度函数为:
当我们进行最大化时,我们可以忽略似然函数的归一化常数,因此:
正如往常一样,优化对数可能会更加容易一点:
为了简单起见,我们可以设置 ,那么:
所以我们可以看到,对于高斯似然做 MLE 等于线性回归!!!
线性回归的贝叶斯角度
但是,如果我们想要去处理贝叶斯,我们需要先引入一个先验,并与后者合并一起。那么,我们正在进行 MAP 估算!后验是先验的似然:
既然我们已经知道了似然,现在我们可以问,什么是先验呢?如果我们将其设置为均匀分布,那么我们将在此处回到 MLE 估计。因此,对于非平凡的例子,我们先使用高斯先验作为权重:
扩展概率密度函数,我们再次忽略正则化常数,但是要记住这一点,即
让我们得出后验:
我们对其求对数:
跟前面一样,我们可以假设 和
也就是说,高斯似然和高斯先验的对数后验与 Ridge 回归的目标函数相同。因此,高斯先验等于
完全贝叶斯方法
当然,上面不是完整的贝叶斯过程,因为我们正在以 MAP 的形式进行点估计。这只是一个捷径,因为我们不需要计算完整的后验分布。对于完全贝叶斯方法,我们需要分析完整的后验分布。在测试时间内,我们使用后验来对新数据进行加权,即我们将后验预测分布边缘化:
也就是说,考虑到我们新数据点的似然
直观的说,给出了所有后验可能的值 W,我们逐个尝试这些值来预测新数据。然后结果与这些值的概率的平均,因此正是我们需要的期望。
当然,这就是我们使用 MAP 形式的快捷方式的原因。为了说明,如果每一个组件 W 是二元的,等价于他有两个可能值。那么如果有 K 个组件 W,那么我们就可能有
当然我们可以使用像变分贝叶斯或者 MCMC 这样的近似方法,但他们仍然比 MAP 更加昂贵。由于 MAP 和 MLE可以保证找到其中一种模式(局部最大值),因此足够好。
结论
在这篇文章中,我们看到了线性回归有几个不同的观点。首先,我们研究了普通机器学习 PoV 中的线性回归的定义,然后是频率统计,最后是贝叶斯统计。
我们注意到使用 MAP 估计的线性回归的贝叶斯版本不是完全贝叶斯方法,因为 MAP 只是一种捷径。然后我们注意到为什么完全贝叶斯方法很难并且通常难以处理,即使在这个简单的回归模型上也是如此。