今日分享:逻辑回归基础理论

一:理论简述

逻辑回归从名字上看像是回归预测算法,但其实是一种二分类算法。简单来说逻辑回归是在线性回归的基础上将回归预测值通过sigmod函数映射为一个在区间[0,1]之间的概率值,0.5作为分割阈值,大于阈值的归为一类,小于阈值的归为另一类,于是便实现了二分类。

如何将分类算法转化为回归算法 分类算法逻辑回归_迭代

上述这个公式眼熟吧,就是一般线性回归函数,假设输入单个样本,便得到其预测值

如何将分类算法转化为回归算法 分类算法逻辑回归_如何将分类算法转化为回归算法_02

sigmoid函数公式

如何将分类算法转化为回归算法 分类算法逻辑回归_线性回归_03

sigmoid函数图像

由图像可知该函数的值域在[0,1]之间,X取值在负无穷到正无穷之间,这里的X正是前面的预测值,无论预测值是多大或多小的数,只要经过该函数处理,就只能在0,1之间活动,而这个[0,1]之间的值是一个概率值,并不仅单单是一个无意义的实数。

如何将分类算法转化为回归算法 分类算法逻辑回归_权重_04

损失函数公式

损失函数值越小,则对该样本预测的类别准确度更高

二:Sklearn逻辑回归API

该方法同样是在线性回归模块下

sklearn.linear_model.LogisticRegression

该模块参数介绍

sklearn.linear_model.LogisticRegression(以下参数)

penalty=l2,
# 惩罚项,可选l1,l2,对参数约束,减少过拟合风险
                                        
dual=False,
# 对偶方法(原始问题和对偶问题),用于求解线性多核(liblinear)的L2的惩罚项上。样本数大于特征数时设置False
                                        
tol=0.0001
# 迭代停止的条件,小于等于这个值停止迭代,损失迭代到的最小值。
                                        
C=1.0,
# 正则化系数λ的倒数,越小表示越强的正则化。
                                        
fit_intercept=True
 # 是否存在截距值,即b
                                
class_weight=None,
# 类别的权重,样本类别不平衡时使用,设置balanced会自动调整权重。
# 为了平横样本类别比例,类别样本多的,权重低,类别样本少的,权重高。
                                        
random_state=None
# 随机种子,设置后可保证数据集的划分不变
                                        
solver=’liblinear’,
# 优化算法的参数,包括newton-cg,lbfgs,liblinear,sag,saga,对损失的优化的方法
                                        
max_iter=100
# 最大迭代次数,
                                        
multi_class=’ovr’
# 多分类方式,有‘ovr','mvm'
                                        
verbose=0,
# 输出日志,设置为1,会输出训练过程的一些结果
                                        
warm_start=False,
# 热启动参数,如果设置为True,则下一次训练是以追加树的形式进行(重新使用上一次的调用作为初始化)
                                        
n_jobs=1 
# 并行数,设置为1,用1个cpu运行,设置-1,用你电脑的所有cpu运行程序