1、逻辑回归与线性回归的联系与区别
2、 逻辑回归的原理
3、逻辑回归损失函数推导及优化
4、 正则化与模型评估指标
5、逻辑回归的优缺点
6、样本不均衡问题解决办法
7. sklearn参数
1 标题线性回归与逻辑回归的区别与联系
1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求(假设了样本服从伯努力分布-0,1分布)。
2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。
3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系
4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系
逻辑回归(LogisticRegression)又称对数几率回归,是一种广义的线性回归分析模型。广义线性模型(generalized linear model) 是在普通线性模型的基础上,对其进行推广而得出的应用范围更广,更具实用性的回归模型。
“回归”一般是用于预测样本的值,这个值通常是连续的。但是受限于其连续的特性,一般用它来进行分类的效果往往很不理想。为了保留线性回归“简单效果有不错”的特点,又想让它能够进行分类,因此需要对预测值再做一次处理。这个多出来的处理过程,就是GLM所做的最主要的事。而处理过程的这个函数,我们把它叫做连接函数。
当一个处理样本的回归模型是线性模型,且连接函数满足一定特性(特性下面说明)时,我们把模型叫做广义线性模型。(特殊的,当连接函数是 f(x)=x 时,其实就是线性回归。)
![线性回归到逻辑回归的推广]
当一个处理样本的回归模型是线性模型,且连接函数满足一定特性(特性下面说明)时,我们把模型叫做广义线性模型(特殊的,当连接函数是 f(x)=x 时,其实就是线性回归)。
2、逻辑回归原理
逻辑回归的连接函数——Logit函数,
它有一个非常好的性质,即当z趋于正无穷时,g(z)趋于1,而当z趋于负无穷时,g(z)趋于0,这非常适合于我们的分类概率模型。另外,它还有一个很好的导数性质:
logit函数]
logit函数的导数
Logistic回归是对特征(feature)做加权相加后,输入给Sigmoid函数,用Sigmoid函数的输出来确定二分类的结果。其中的logistic就是sigmoid函数,因为它也叫logistic函数。它与logit函数互为反函数。其中的回归在这里的含义可以理解为最佳拟合,表示要找到最佳拟合参数集用于对特征加权。训练分类器就是用最优化方法去寻找最佳拟合参数。
3、逻辑回归损失函数推导及优化
具体推导:
可以简单的认为,逻辑回归是将线性回归的结果通过Sigmoid函数映射到了Sigmoid函数中,逻辑回归模型函数,采用概率的形式描述如下:
事件发生的概率
事件不发生的概率
事件发生和不发生的概率比
对其求对数可得
逻辑回归采用概率模型描述为n个独立事件的,则得到观测值的概率为:
此处的y只能取0和1,因为各个观测样本之间相互独立,那么它们的联合分布为各边缘分布的乘积。得到似然函数为:
对最大似然函数求对数取反,得到逻辑回归的损失函数,逻辑回归的对数似然损失函数cost function:
稍微解释下这个损失函数,或者说解释下对数似然损失函数:
当y=1时,假定这个样本为正类。如果此时hθ(x)=1hθ(x)=1,则单对这个样本而言的cost=0,表示这个样本的预测完全准确。那如果所有样本都预测准确,总的cost=0
但是如果此时预测的概率hθ(x)=0hθ(x)=0,那么cost→∞cost→∞。直观解释的话,由于此时样本为一个正样本,但是预测的结果P(y=1|x;θ)=0P(y=1|x;θ)=0, 也就是说预测 y=1的概率为0,那么此时就要对损失函数加一个很大的惩罚项。
全体样本的损失函数为:
损失函数最小时,得到最优模型,损失函数的优化方法主要有梯度上升法和牛顿法;
4、 正则化与模型评估指标
正则化能有效地实现结构风险最小化,正则化是在经验风险上再加上一个正则化项或惩罚项。正则化项是单调递增函数,模型越复杂,正则化项越大。
正则项可以取不同的形式,在回归问题中取平方损失,就是参数的L2范数,也可以取L1范数。取平方损失时,模型的损失函数变为:
λ是正则项系数:
• 若λ很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;
• 若λ很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:
评价准则:
分类问题有通用的评估指标,常用的是准确率(accuary)、召回率(recall)、精度(precision)、ROC曲线、AUC。
准确率(accuary):左右预测为1的训练样本中,真实值为1的概率;
召回率(recall);真实值为1的样本中预测值也为1的概率;
ROC曲线、AUC
ROC曲线的横坐标为false positive rate(FPR),纵坐标为 true positive rate(TPR)
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。根据每个测试样本属于正样本的概率值从大到小排序,依次将 “Score”值作为阈值threshold,当测试样本属于正样本的概率 大于或等于这个threshold时,认为它为正样本,否则为负样本。
计算出ROC曲线下面的面积,就是AUC的值。 介于0.5和1.0之间,越大越好。
5、逻辑回归的优缺点
优点:
1)适合需要得到一个分类概率的场景。
2)计算代价不高,容易理解实现。LR在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。
3)LR对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。(严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,但是若要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征。)
缺点:
1.容易欠拟合
2.特征空间很大时效果不好
3.由于sigmoid函数的特性,接近0/1的两侧概率变化较平缓,中间概率敏感,波动较大;导致很多区间特征变量的变化对目标概率的影响没有区分度,无法确定临界值。
6、样本不均衡问题解决办法
样本不均衡指的是数据集中正负例样本比例失衡,不再是1:1。此类问题的解决方法一般是基于数据集的重采样或者基于模型的调整。对于逻辑回归来说可以调整预测函数的临界值,使其适当偏向少数类样本,平衡召回率和精度。
对不同类型的样本给不同的权重也可以降低样本不均衡;
7、sklearn参数