文章目录
- 1 本章内容介绍
- 2 逻辑回归原理
- 3 带正则化的逻辑回归
1 本章内容介绍
通过本章我们可以学习到:
- 逻辑函数与逻辑回归原理
- 梯度下降
- 带正则化的逻辑回归(L1,L2)
- 特征选择
2 逻辑回归原理
- 仅能处理离散型数据,所以在模型的训练之前,要数据集内对类别型的特征进行编码,可以使用
scikit-learn
库的OneHotEncoder或者DictVectorizer来实现。当测试集内出现新的特征时,它将被忽略。顺序型的编码其实也有一定作用,比如当特征之间有大小(顺序)关系时,就可以采用这种编码。 - 模型建立:
逻辑回归模型本质上是条件概率分布。分为二项逻辑回归和多项逻辑回归。
- 模型策略:
应用极大似然估计法,损失函数最大最优。MSE损失函数非凸,容易陷入局部最小值,因此这里使用交叉熵损失,而乘积形式的损失函数容易导致计算下溢,而对数形式的交叉熵损失函数为凸函数,且可以写成累加的形式,计算方便。故损失函数为:
- 训练算法(参数估计):
对损失函数求极大值,即可得到参数w的估计值。
具体算法为梯度下降法,朝着负梯度方向进行更新,用得较多的是stochastic gradient descent (SGD,随机梯度下降)。
- 预测时,比较条件概率的大小,取概率值最大的类别。
- 逻辑回归模型的可扩展性很强,可以使用在线学习,即数据集是不断在动态变化着的,当有新的数据集到来时,模型不必重新训练,而是在之前基础上利用新到来的数据集进行训练,适用于数据不断产生(如股票价格预测)或海量数据的情况(无法一次性加载完)。
3 带正则化的逻辑回归
- 有L1和L2两种正则化,都是通过先验知识来限制参数(惩罚),区别在于是否需要进行特征选择。
- L2正则化不允许有较大或较小的参数出现,而L1正则化允许部分参数值较大,而其余为0或接近于0,以达到特征选择的目的。
- 随机森林也能进行特征选择,因为每棵树每次递归时会选择最优特征,且有部分特征被抛弃,那么将所有树视为整体,选中次数最多的特征即较为重要的特征。