贝叶斯岭回归模型贝叶斯回归分析

转载

数据挖掘者 2024-03-12 11:15:10

文章标签 贝叶斯岭回归模型量化交易线性回归损失函数正则化 文章分类 机器学习人工智能

作者：chen_h

我们都知道学习机器学习时学到的第一个模型就是线性回归。这是一个非常简单，直观和激发我们深入到机器学习的模型。

线性回归可以在几个观点中直观的解释，例如：几何和频率统计。从频率统计的角度来看，通常应该会谈论到贝叶斯。因此从这篇文章中，我们将从贝叶斯的角度来简单分析一下线性规划。

线性回归：回顾

回想一下，在线性回归中，我们希望将输入映射为实数，即 $贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型$

线性回归也是分为好几种的，这取决于它们的成本函数和正则化器。在这篇文章中，我们将来重点关注线性回归 $贝叶斯岭回归模型贝叶斯回归分析_正则化_02$ 损失函数和 $贝叶斯岭回归模型贝叶斯回归分析_正则化_02$

正式的，这种形式我们可以用数学表示为：

$贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_04$

其中 $贝叶斯岭回归模型贝叶斯回归分析_量化交易_05$ 是真实值， $贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_06$

$贝叶斯岭回归模型贝叶斯回归分析_正则化_07$

这是一个特征向量和权重矩阵的线性组合。上面额外的 $贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_08$

当然，我们可以先忽略正则化项，那么我们的损失函数就变成了：

$贝叶斯岭回归模型贝叶斯回归分析_线性回归_09$

最小化此目标是线性最小二乘问题的定义。

线性回归的频率观点

我们可以将上述模型的回归目标谢伟预测值加上一些误差：

$\hat y = y + \epsilon = W^{T}x + \epsilon $

或者，等价于，我们可以得到误差项的表现形式：

$贝叶斯岭回归模型贝叶斯回归分析_量化交易_10$

现在，假设我们将回归目标建模为高斯随机变量，即 $贝叶斯岭回归模型贝叶斯回归分析_正则化_11$ 和 $贝叶斯岭回归模型贝叶斯回归分析_量化交易_12$

$贝叶斯岭回归模型贝叶斯回归分析_量化交易_13$

然后，我们的目标就是去找到最佳的 W，我们可以使用最大似然函数（MLE）。由于上述模型是似然的，所以我们可以用如下数学公式描述我们的数据：

$贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_14$

高斯分布的概率密度函数为：

$贝叶斯岭回归模型贝叶斯回归分析_正则化_15$

当我们进行最大化时，我们可以忽略似然函数的归一化常数，因此：

$贝叶斯岭回归模型贝叶斯回归分析_线性回归_16$

正如往常一样，优化对数可能会更加容易一点：

$贝叶斯岭回归模型贝叶斯回归分析_损失函数_17$

为了简单起见，我们可以设置 $贝叶斯岭回归模型贝叶斯回归分析_正则化_18$ ，那么：

$贝叶斯岭回归模型贝叶斯回归分析_线性回归_19$

所以我们可以看到，对于高斯似然做 MLE 等于线性回归！！！

线性回归的贝叶斯角度

但是，如果我们想要去处理贝叶斯，我们需要先引入一个先验，并与后者合并一起。那么，我们正在进行 MAP 估算！后验是先验的似然：

$贝叶斯岭回归模型贝叶斯回归分析_线性回归_20$

既然我们已经知道了似然，现在我们可以问，什么是先验呢？如果我们将其设置为均匀分布，那么我们将在此处回到 MLE 估计。因此，对于非平凡的例子，我们先使用高斯先验作为权重：

$贝叶斯岭回归模型贝叶斯回归分析_损失函数_21$

扩展概率密度函数，我们再次忽略正则化常数，但是要记住这一点，即 $贝叶斯岭回归模型贝叶斯回归分析_线性回归_22$

$贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_23$

让我们得出后验：

$贝叶斯岭回归模型贝叶斯回归分析_正则化_24$

我们对其求对数：

$贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_25$

跟前面一样，我们可以假设 $贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_26$ 和 $贝叶斯岭回归模型贝叶斯回归分析_量化交易_27$

$贝叶斯岭回归模型贝叶斯回归分析_正则化_28$

也就是说，高斯似然和高斯先验的对数后验与 Ridge 回归的目标函数相同。因此，高斯先验等于 $贝叶斯岭回归模型贝叶斯回归分析_正则化_02$

完全贝叶斯方法

当然，上面不是完整的贝叶斯过程，因为我们正在以 MAP 的形式进行点估计。这只是一个捷径，因为我们不需要计算完整的后验分布。对于完全贝叶斯方法，我们需要分析完整的后验分布。在测试时间内，我们使用后验来对新数据进行加权，即我们将后验预测分布边缘化：

$贝叶斯岭回归模型贝叶斯回归分析_线性回归_30$

也就是说，考虑到我们新数据点的似然 $贝叶斯岭回归模型贝叶斯回归分析_损失函数_31$

直观的说，给出了所有后验可能的值 W，我们逐个尝试这些值来预测新数据。然后结果与这些值的概率的平均，因此正是我们需要的期望。

当然，这就是我们使用 MAP 形式的快捷方式的原因。为了说明，如果每一个组件 W 是二元的，等价于他有两个可能值。那么如果有 K 个组件 W，那么我们就可能有 $贝叶斯岭回归模型贝叶斯回归分析_贝叶斯岭回归模型_32$

当然我们可以使用像变分贝叶斯或者 MCMC 这样的近似方法，但他们仍然比 MAP 更加昂贵。由于 MAP 和 MLE可以保证找到其中一种模式（局部最大值），因此足够好。

结论

在这篇文章中，我们看到了线性回归有几个不同的观点。首先，我们研究了普通机器学习 PoV 中的线性回归的定义，然后是频率统计，最后是贝叶斯统计。

我们注意到使用 MAP 估计的线性回归的贝叶斯版本不是完全贝叶斯方法，因为 MAP 只是一种捷径。然后我们注意到为什么完全贝叶斯方法很难并且通常难以处理，即使在这个简单的回归模型上也是如此。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：中兴路由器修改OSPF优先级中兴ospf配置

下一篇：java拉取gitlab代码 gitlab 拉取

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯