一、局部加权线性回归

由来及原理

原始线性回归目标函数:
R 加权最小二乘法回归 加权最小二乘回归spss_人工智能

局部加权线性回归目标函数:
R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_02
两者的区别在于后者多了权值R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_03R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_03可以控制第i个样本预测误差对于目标函数的影响。
局部加权线性回归的思想是:对某样本做预测时,重点关注该样本附近的样本,给予它们较高的R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_03。因此R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_03的具体形式如下所示:

R 加权最小二乘法回归 加权最小二乘回归spss_人工智能_07


如图,越靠近x的样本获得R 加权最小二乘法回归 加权最小二乘回归spss_机器学习_08越大,训练时它们起到的作用也越大。

其中R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_09为波长参数,R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_09越大远距离样本下降速度越快,远距离样本的作用越小。

注:该函数与高斯函数无关,不存在积分为1的性质。

缺点

局部加权回归每次预测新样本时,需要重新学习所有的样本,根据样本和权重重新确定参数θ,因此会花费较多时间,不适用于大规模数据集的情况。

R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_11

非参数算法

对于线性回归算法,一旦拟合出适合训练数据的参数,保存这些参数,对于之后的预测,不需要再使用原始训练数据集,所以是参数学习算法。
对于局部加权线性回归算法,每次进行预测都需要全部的训练数据(每次进行的预测得到不同的参数θ),没有固定的参数θ,所以是非参数算法。

二、线性回归为什么使用最小二乘作为损失函数

假设R 加权最小二乘法回归 加权最小二乘回归spss_机器学习_12
其中R 加权最小二乘法回归 加权最小二乘回归spss_算法_13为随机噪声,满足高斯分布R 加权最小二乘法回归 加权最小二乘回归spss_算法_13~R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_15
可得概率密度函数:
R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_16
假设R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_17独立同分布(IID),当然一般是不满足的,但对结果并不会有大影响。
因而R 加权最小二乘法回归 加权最小二乘回归spss_机器学习_18 ~ R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_19,也就是说,给定θ和x,y满足一个高斯分布。
可得概率密度函数
R 加权最小二乘法回归 加权最小二乘回归spss_机器学习_20
定义似然函数(Likelihood):
R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_21

对数似然函数(log Likelihood):
R 加权最小二乘法回归 加权最小二乘回归spss_人工智能_22

极大似然估计(Maximum Likelihood Estimate):
选择θ使似然函数最大化R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_23最大化,等效于使R 加权最小二乘法回归 加权最小二乘回归spss_算法_24最小化,而这就是最小二乘法。

注:似然(likelihood)和概率(probability)的区别
参数的可能性 - likelihood of parameters
数据的概率 - probability of data
在推导时,有式子L(θ) = P(Y|X;θ),两者是等价的
如果认为数据固定,而改变θ,会说L(θ)
如果认为θ固定,数据可变,会说P(Y|X;θ)

三、逻辑回归

sigmoid函数

R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_25

作用:将z从(R 加权最小二乘法回归 加权最小二乘回归spss_算法_26)映射到(0,1)

R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_27

逻辑回归数学模型

R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_28代入得:
R 加权最小二乘法回归 加权最小二乘回归spss_机器学习_29
输出R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_30在(0,1)之间

进一步推导

概率密度函数
R 加权最小二乘法回归 加权最小二乘回归spss_人工智能_31
R 加权最小二乘法回归 加权最小二乘回归spss_人工智能_32
合并为一个式子:
R 加权最小二乘法回归 加权最小二乘回归spss_机器学习_33

似然函数
R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_34

对数似然函数
R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_35

极大似然估计
选择θ使L(θ)最大化。
为什么是最大化?
因为这里的L(θ)不是损失函数,而是似然函数,最大化似然就是最小化损失,此处L(θ)代表了样本被分入某类的概率,越大越容易被分类。

方法一:批量梯度下降
R 加权最小二乘法回归 加权最小二乘回归spss_逻辑回归_36
注:R 加权最小二乘法回归 加权最小二乘回归spss_人工智能_37是一个凸函数,不会出现局部最大值的情况

方法二:牛顿法

牛顿法的作用:

已知函数f,求θ,使f(θ) = 0

求解过程如图所示:

R 加权最小二乘法回归 加权最小二乘回归spss_人工智能_38


更新规则:

R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_39

导数(斜率)公式:

R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_40

将导数公式代入更新规则得:

R 加权最小二乘法回归 加权最小二乘回归spss_R 加权最小二乘法回归_41

上述推导我们认为θ为实数(一维向量),而当θ为向量时(θ为n+1维),有更新规则:
R 加权最小二乘法回归 加权最小二乘回归spss_算法_42
其中H为海森矩阵(n+1)*(n+1)维
R 加权最小二乘法回归 加权最小二乘回归spss_机器学习_43
海森矩阵中的每个数都需要求两阶导数,因此θ维数太高时计算量太大。
优点:二阶收敛
缺点:θ维数高时计算量大

引用及参考:
[2]https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407?fr=aladdin