一、局部加权线性回归
由来及原理
原始线性回归目标函数:
局部加权线性回归目标函数:
两者的区别在于后者多了权值,可以控制第i个样本预测误差对于目标函数的影响。
局部加权线性回归的思想是:对某样本做预测时,重点关注该样本附近的样本,给予它们较高的。因此的具体形式如下所示:
如图,越靠近x的样本获得越大,训练时它们起到的作用也越大。
其中为波长参数,越大远距离样本下降速度越快,远距离样本的作用越小。
注:该函数与高斯函数无关,不存在积分为1的性质。
缺点
局部加权回归每次预测新样本时,需要重新学习所有的样本,根据样本和权重重新确定参数θ,因此会花费较多时间,不适用于大规模数据集的情况。
非参数算法
对于线性回归算法,一旦拟合出适合训练数据的参数,保存这些参数,对于之后的预测,不需要再使用原始训练数据集,所以是参数学习算法。
对于局部加权线性回归算法,每次进行预测都需要全部的训练数据(每次进行的预测得到不同的参数θ),没有固定的参数θ,所以是非参数算法。
二、线性回归为什么使用最小二乘作为损失函数
假设
其中为随机噪声,满足高斯分布~。
可得概率密度函数:
假设独立同分布(IID),当然一般是不满足的,但对结果并不会有大影响。
因而 ~ ,也就是说,给定θ和x,y满足一个高斯分布。
可得概率密度函数:
定义似然函数(Likelihood):
得对数似然函数(log Likelihood):
极大似然估计(Maximum Likelihood Estimate):
选择θ使似然函数最大化最大化,等效于使最小化,而这就是最小二乘法。
注:似然(likelihood)和概率(probability)的区别
参数的可能性 - likelihood of parameters
数据的概率 - probability of data
在推导时,有式子L(θ) = P(Y|X;θ),两者是等价的
如果认为数据固定,而改变θ,会说L(θ)
如果认为θ固定,数据可变,会说P(Y|X;θ)
三、逻辑回归
sigmoid函数
作用:将z从()映射到(0,1)
逻辑回归数学模型
代入得:
输出在(0,1)之间
进一步推导
概率密度函数
合并为一个式子:
似然函数
对数似然函数
极大似然估计
选择θ使L(θ)最大化。
为什么是最大化?
因为这里的L(θ)不是损失函数,而是似然函数,最大化似然就是最小化损失,此处L(θ)代表了样本被分入某类的概率,越大越容易被分类。
方法一:批量梯度下降
注:是一个凸函数,不会出现局部最大值的情况
方法二:牛顿法
牛顿法的作用:
已知函数f,求θ,使f(θ) = 0
求解过程如图所示:
更新规则:
导数(斜率)公式:
将导数公式代入更新规则得:
上述推导我们认为θ为实数(一维向量),而当θ为向量时(θ为n+1维),有更新规则:
其中H为海森矩阵(n+1)*(n+1)维
海森矩阵中的每个数都需要求两阶导数,因此θ维数太高时计算量太大。
优点:二阶收敛
缺点:θ维数高时计算量大
引用及参考:
[2]https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407?fr=aladdin