• 线性回归
  • 模型
  • 损失函数
  • 最小二乘参数估计
  • 多元线性回归
  • 逻辑回归
  • 模型
  • sigmoid函数
  • 极大似然估计
  • 损失函数
  • 梯度下降
  • 参考资料



注:本博客定义为学习笔记,为本人通过一些材料和书籍整理而来,或许会有些许心得体会。

线性回归

模型

公式如下:


f(x)=wx+b(0) (0) f ( x ) = w x + b


给定一组样本

(x1,y1)(x2,y1)…(xi,yi)…(xn,yn) ( x 1 , y 1 ) ( x 2 , y 1 ) … ( x i , y i ) … ( x n , y n ) ,若要用一个函数来拟合所有样本点的y值,可以用公式0来进行拟合。图如下(来自百度百科):


OLS回归取对数 ols回归公式_最小二乘

损失函数



L(w,b)=∑i=1n(f(x)−yi)2 L ( w , b ) = ∑ i = 1 n ( f ( x ) − y i ) 2

最小二乘参数估计

令均方误差最小化,即:


(w∗,b∗)=argmin(w,b)∑i=1n(f(xi)−yi)2=argmin(w,b)∑i=1n(wxi+b−yi)2 ( w ∗ , b ∗ ) = arg ⁡ min ( w , b ) ⁡ ∑ i = 1 n ( f ( x i ) − y i ) 2 = arg ⁡ min ( w , b ) ⁡ ∑ i = 1 n ( w x i + b − y i ) 2


分别令L(w,b)对w和b进行微分,令微分为0:



∂L(w,b)∂w=0∂L(w,b)∂b=0 ∂ L ( w , b ) ∂ w = 0 ∂ L ( w , b ) ∂ b = 0


求出结果如下:



wb=∑i=1nyi(xi−x¯)∑i=1nx2i−1n(∑i=1nxi)2=1n∑i=1n(yi−wxi) w = ∑ i = 1 n y i ( x i − x ¯ ) ∑ i = 1 n x i 2 − 1 n ( ∑ i = 1 n x i ) 2 b = 1 n ∑ i = 1 n ( y i − w x i )

多元线性回归



f(xi)=wTx+b f ( x i ) = w T x + b



xi=(xi1;xi2;…;xid) x i = ( x i 1 ; x i 2 ; … ; x i d )


w=(w;b) w = ( w ; b )

同样应用最小二乘法进行参数估计,得



w∗=argminw(y−xw)T(y−xw) w ∗ = arg ⁡ min w ⁡ ( y − x w ) T ( y − x w )



L(w)=(y−xw)T(y−xw) L ( w ) = ( y − x w ) T ( y − x w ) ,对L(w)求导为0,得:



∂L(w)∂w=2xT(y−xw)=0 ∂ L ( w ) ∂ w = 2 x T ( y − x w ) = 0

逻辑回归

模型



P(Y=1|x)P(Y=0|x)=11+e−w⋅x+b=ew⋅x+b1+ew⋅x+b=1−P(Y=1|x)=11+ew⋅x+b P ( Y = 1 | x ) = 1 1 + e − w ⋅ x + b = e w ⋅ x + b 1 + e w ⋅ x + b P ( Y = 0 | x ) = 1 − P ( Y = 1 | x ) = 1 1 + e w ⋅ x + b



w=(w;b) w = ( w ; b ) ,此时,观察:



logP(Y=1|x)P(Y=0|x)=w⋅x l o g P ( Y = 1 | x ) P ( Y = 0 | x ) = w ⋅ x


即求对数之后是线性的,因此逻辑回归是对数线性模型。


逻辑回归是分类任务,图如下:


OLS回归取对数 ols回归公式_损失函数_02

sigmoid函数

sigmoid函数公式如下:


f(x)=11+e−x f ( x ) = 1 1 + e − x


图像如下所示:


OLS回归取对数 ols回归公式_最小二乘_03


sigmoid函数有一个很好的特性,即:



f′(x)=f(x)(1−f(x)) f ′ ( x ) = f ( x ) ( 1 − f ( x ) )

极大似然估计

似然函数为:


L(w)=∏i=1nP(Y=1|xi)yiP(Y=0|xi)1−yi L ( w ) = ∏ i = 1 n P ( Y = 1 | x i ) y i P ( Y = 0 | x i ) 1 − y i


对其求对数,得对数似然函数:



logL(w)=∑i=1n[yilogew⋅xi1+ew⋅xi+(1−yi)log11+ew⋅xi]=∑i=1n[yi(w⋅xi)−log(1+ew⋅xi)] log ⁡ L ( w ) = ∑ i = 1 n [ y i log ⁡ e w ⋅ x i 1 + e w ⋅ x i + ( 1 − y i ) log ⁡ 1 1 + e w ⋅ x i ] = ∑ i = 1 n [ y i ( w ⋅ x i ) − log ⁡ ( 1 + e w ⋅ x i ) ]


最大化对数似然函数,即可求出参数w的估计值。

损失函数

损失函数为负的对数似然函数:


L(w)^=−1nlogL(w)=−1n∑i=1n[yi(w⋅xi)−log(1+ew⋅xi)] L ( w ) ^ = − 1 n log ⁡ L ( w ) = − 1 n ∑ i = 1 n [ y i ( w ⋅ x i ) − log ⁡ ( 1 + e w ⋅ x i ) ]



L(w)^ L ( w ) ^ 记为 L(w) L ( w ) ,即



L(w)=−1n∑i=1n[yi(w⋅xi)−log(1+ew⋅xi)] L ( w ) = − 1 n ∑ i = 1 n [ y i ( w ⋅ x i ) − log ⁡ ( 1 + e w ⋅ x i ) ]


因此,极大化对数似然函数,即极小化损失函数。可用梯度下降法、拟牛顿法等优化方法来进行参数估计。

梯度下降

梯度下降法是一种迭代性的优化算法,先随机选取初始点w0 w 0 ,然后用下面的公式更新参数w,直到满足终止条件为止。


w=w−α∂L(w)w w = w − α ∂ L ( w ) w


其中,

α α 为学习率,



∂L(w)w=−1n∑i=1n(yi−ew⋅x1+ew⋅x)xi ∂ L ( w ) w = − 1 n ∑ i = 1 n ( y i − e w ⋅ x 1 + e w ⋅ x ) x i


梯度下降过程如下:


OLS回归取对数 ols回归公式_损失函数_04