机器学习笔记之贝叶斯线性回归——线性回归背景介绍

  • 引言
  • 回顾:线性回归
  • 场景构建
  • 从概率密度函数认识最小二乘法
  • 回顾:最小二乘估计
  • 回顾:线性回归与正则化
  • 关于线性回归的简单小结
  • 贝叶斯线性回归
  • 贝叶斯方法
  • 贝叶斯方法在线性回归中的任务
  • 贝叶斯线性回归推断任务介绍


引言

本节开始,介绍贝叶斯线性回归(Bayesian Linear Regression)。

回顾:线性回归

场景构建

给定数据集合非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归,其中样本非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_02非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_03维随机变量,对应的标签信息非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_04是一维随机变量:
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_05

从概率密度函数认识最小二乘法

给定数据集合非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_06以及相应拟合直线表示如下:

非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_07


其中直线的表达式为:

这里‘偏置信息’非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_08忽略掉,非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_09表示样本的第非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_10维特征信息。非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_11

概率密度函数角度观察,标签分布可看作是非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_12的基础加上均值为0的高斯分布噪声

非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_13是包含非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_03维特征的随机变量集合;非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_15是一个一维随机变量;非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_16表示一维高斯分布(它和非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_15的维数相同)。

非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_18

回顾:最小二乘估计

关于线性回归问题求解模型参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19时,使用的是最小二乘估计(Least Square Estimation,LSE)
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_20
并且通过最小二乘估计,求解模型参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19矩阵形式表达
矩阵表达的弊端

  • 非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_22是一个非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_23的对称矩阵,它至少是半正定矩阵,但不一定是正定矩阵。从而导致非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_24可能是不可求的。
  • 由于非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_25是样本集合,如果非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_25的样本量较大,会导致非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_22的计算代价极高。非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_28

从概率密度函数角度观察,最小二乘估计本质是极大似然估计(Maximum Likelihood Estimate,MLE)
给定样本非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_29对应标签非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_04之间的关联关系,可以得到非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_31的概率分布:
这里先将非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_32写在上面。非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_33
似然函数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_34进行构建:
将高斯分布的概率密度函数带入~非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_35
使用极大似然估计对最优模型参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_36进行计算:
其中非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_37均是与非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_29无关的量,视作常数。非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_39
这里令非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_40关于极大似然估计关于非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_41的求解公式与最小二乘估计相同

回顾:线性回归与正则化

针对最小二乘估计的过拟合 问题,引入正则化(Regularized)。常见的正则化有两种方式:

  • Lasso回归(非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_42正则化)
    非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_43
  • 岭回归(Ridge回归;非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_44正则化)
    非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_45

概率密度函数角度考虑基于正则化的最小二乘估计,可将其视作关于非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_46最大后验概率估计(Maximum a Posteriori Probability,MAP):
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_47
由于样本间独立同分布,因而有:
增加一个非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_48函数,不影响最值的取值结果。非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_49
先验分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_50,将非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_51一同代入上式,有:
这里既包含对非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19分布的假设。也包含关于高斯噪声非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_53的假设。该假设完全写法是非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_54只不过这里非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_13是已知量,省略掉了。非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_56
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_57时,上式将转化为:
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_58
上述是关于岭回归非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19分布的假设,如果是Lasso回归,将非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19分布假设为拉普拉斯分布(Laplace Distribution)。

关于线性回归的简单小结

无论是最小二乘估计还是包含了正则化的最小二乘估计,其本质均是频率派的求解方式,将模型参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19视作未知常量,通过极大似然估计最大后验概率估计等方式对非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19进行优化,从而使目标函数达到最值
本质上是‘优化问题’。

并且这种估计方式是点估计(Point Estimation),由于概率模型能够源源不断的生成样本,理论上无法完美地、精确描述概率模型的分布信息,只能通过有限的样本集合来估计模型参数
也就是说,使用‘统计得到的样本集合’估计总体参数。 假设某概率模型服从高斯分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_63,这里的非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_64描述概率分布的参数,是固定的。但是该概率模型可以生成无穷无尽的样本,假设某样本集合非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_65是生成出的一部分样本,我们通过统计的方式得到该样本的均值、方差非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_66去估计真正的参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_64

贝叶斯线性回归

区别于频率派点估计方式,贝叶斯派使用的是贝叶斯估计(Bayesian Estimation)。此时的参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19不再是一个未知的常量,而是一个随机变量

对于非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19的估计过程中,需要通过给定数据估计出非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19后验概率分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_71

贝叶斯方法

变分推断——基本介绍中介绍过贝叶斯学派角度认识问题。其核心是:不同于频率派将模型参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_72看作未知的常量,而是将非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_72看作随机变量,从而求解非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_72的后验概率分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_71,基于该分布,对新样本进行预测:
令新样本为非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_76,预测任务可表示为非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_77.
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_78

贝叶斯方法在线性回归中的任务

针对上述贝叶斯方法的描述,在线性回归中的任务包含以下两个:

  • 推断任务(Inference):通过贝叶斯定理,求解后验概率非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_79
  • 预测任务(Prediction):基于后验概率非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_79,对新样本的后验非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_81进行估计。

贝叶斯线性回归推断任务介绍

后验概率非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_71表示如下:
数据集合非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_06包含样本集合非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_13和对应标签集合非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_15.
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_86
其中非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_87似然(Likelihood),非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_88先验分布(Piror Distribution)。
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_88实际上是非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_90,由于非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_13不对非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19产生影响,这里省略。这个先验分布是推断之前给定的某一种分布。

由于样本之间独立同分布,因而似然非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_87可表示为如下形式:
根据上面介绍的线性回归模型,样本非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_29和对应标签非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_04之间是‘包含均值为0高斯噪声的线性关系’
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_96
关于先验分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_88,我们同样假设它是一个 均值为0的高斯分布
其中非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_98表示先验高斯分布的‘协方差矩阵’,由于非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_13维度相同,因而非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_101.
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_102
至此,关于非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19后验概率分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_71可表示为:
贝叶斯定理的分母部分称作’证据‘(Evidence),它可看作关于数据集合非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_06的一个常量(因为数据集合是已知的),和参数非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_19无关。非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_点估计与贝叶斯估计_107
观察,由于似然非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归_87服从高斯分布,并且先验分布同样假设为高斯分布,因而后验分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_71同样服从高斯分布

  • 这里用到了指数族分布的共轭性质,具体描述是:似然非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_110存在一个共轭的先验分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_非线性模型的贝叶斯回归代码R_111,对应效果是:后验分布非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_线性回归_79与先验分布形成相同的分布形式。
  • 并且高斯分布是一个包含’自共轭性质‘的指数族分布。即高斯分布是高斯分布自身的’共轭分布‘。

定义后验的高斯分布为非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_113,具体表示如下:
非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_114

下一节将介绍非线性模型的贝叶斯回归代码R 贝叶斯线性回归案例_贝叶斯线性回归相关任务_115求解过程