一、线性回归概述:
线性回归中最简单的情形:
即输入属性的目只有一个。
下面我们来推导更一般的情形:
即样本由 d 个属性描述。
给定数据集
,
其中
,
,
线性回归试图学得:
,
使得
,
这称为 “多元线性回归” 。
为了便于讨论,我们把 w 和 b 吸收入向量形式
,
相应的,把数据集 D 表示为一个 m*(d+1) 大小的矩阵 X ,其中每行对应于一个示例,该行前 d 个元素对应于示例的 d 个属性值,最后一个元素恒置为 1 ,即:
再把标记也写成向量形式:
则损失函数:
下面对上式进行化简:
又因为:
所以:
二、数学知识储备
凸集定义: 设集合
, 如果对任意的
与任意的
, 有
, 则称集合 D 是凸集。
凸集的几何意义是:
若两个点属于此集合,则这两点连线上的任意一点均属于此集合。
梯度定义:
设 n 元函数
对自变量
的各分量
的偏导数
(i = 1,2 , ... , n) 都存在,则称函数
在 x 处一阶可导,并称向量
为函数
在 x 处的一阶导数或梯度,记为
(列向量) Hessian(海塞)矩阵定义: 设 n 元函数
对自变量
的各分量
的二级偏导数
(i = 1,2 , ... , n ; j = 1,2 , ... , n)
都存在,
则称函
数
在点 x 处二阶可导,并称矩阵
为
在 x 处的二阶导数或Hessian矩阵,记为
,若
对 x 各变元的所有二阶偏导数都连续 , 则
,此时
为对称矩阵。
多元实值函数凹凸性判定定理:
设
是非空开凸集,
,且
在 D 上二阶连续可微,如 果
的 Hessian矩阵
在 D 上是正定的,则
是 D 上的严格凸 函数。
凸充分性定理: 若
是凸函数,且
一阶连续可微,则
是全局解的充分必要条件是
, 其中
为 关于 x 的一阶导数(也称梯度)。
三、证明损失函数E 是关于w的凸函数 :
【标量-向量】的矩阵微分公式为: 其中,
为 n 维列向量, y 为 x 的 n 元标量函数。 (1)
(分母布局)【默认采用】 (2)
(分子布局)
由【标量-向量】的矩阵微分公式可推得:
同理,可推得:
下面简单推导一下:
=
由矩阵微分公式
,
可得:
Hessian矩阵
,在 D 上是正定的,所以损失函数
是关于
的凸函数。
四、求解w
令一阶导数等于 0 解出
: