什么是逻辑回归
逻辑回归是分类算法,通过对样本的类别标签进行预测,例如预测标签为 1 或者 0,将样本分成不同的类别。
为了您有更好的认识,我在这里 罗列一些逻辑回归的应用场景如下:
- 搜索引擎的广告CTR预估
- 推荐系统的learning to rank
- 各种分类场景
- 某电商搜索排序
在实际建模时,逻辑回归有着极其重要的地位。它通常是首选的算法。这倒不是因为它的效果好,而是因为它最容易实现。有了这个兜底的模型后,工程师们就会逐步去探索更复杂、更有效的模型。
可以说,逻辑回归是分类中的基石。
逻辑回归的过程推导
逻辑回归的模型训练过程包括以下两步
1,通过极大似然估计来构建逻辑回归的损失函数
2,通过梯度下降计算得到逻辑回归的参数值
第一步:用极大似然估计来构建逻辑回归的损失函数
极大似然估计
什么是极大似然估计
举一个例子,有一个熊孩子,名叫小明。
天气好的时候,小明有99%的概率会去上学;天气不好的时候,小明有99%的概率在家里打王者荣耀。有一天,小学生小明又在家里玩王者荣耀了,问,这一天的天气如何?
人们的第一印象就是,“天气最可能是坏天气”,这个推断符合人们的经验事实。这个就是“极大似然估计”。
极大似然估计的目的就是:利用已知的样本结果,反推最有可能导致这样结果的参数值。
从流程上来说,极大似然估计分为两个步骤:
1)假设未知参数w已知,计算某个事件或组合事件发生的概率,得到一个关于 w的似然函数 P(w)。
2)求似然函数P(w)取得最大值的 w 值,作为真实 w 的估计值。
逻辑回归采用极大似然估计作损失函数,它的用法就是首先假定模型参数已知,并建立样本的似然函数;再对似然函数求解最大值,推导出模型的参数值。这样,一个逻辑回归的模型就建模成功了。
Sigmoid函数
我们定义逻辑回归的表达式为:
那么逻辑回归的模型就变为
逻辑回归的函数是一个Sigmoid函数,Sigmoid 函数表达式为
Sigmoid 函数是个单调递增函数,定义域是实数域 ,而值域则是 (0,1)。表现如下图:
可见,从形式来说,逻辑回归是输入特征的线性回归叠加 Sigmoid 函数的过程。从以上的分析结果可见,逻辑回归是个线性分类器,值域是(0,1)。
我们推导 Sigmoid 函数的一阶导数。根据分式的求导法则,有
Sigmoid函数的求导经常会被用到,建议大家可以记住这个求导结果。
构建损失函数
似然函数就是每个样本被预测正确的概率的连乘。我们定义
φ(Z) 就是预测值,yi尖表示某个样本被预测为类别 1 的概率。
一个样本的真实值 yi取值为 0 或 1。
正确预测有 0 和 1 两种情况。
若真实值和预测值都为 0,即
则样本被正确预测的概率就是样本被预测为 0 的概率,即为
若真实值和预测值都为 1,即
则样本被正确预测的概率就是样本被预测为1的概率,即为
两种情况合在一起,就是样本被正确预测的概率,合并起来的公式为:
假设样本集合中含有 n 个样本,n个样本都被正确预测的概率的乘积为:
这就是逻辑回归的似然函数
由于连乘的计算相当复杂,通常会通过取对数的方式转化为求和运算,得到:
化简得到对数似然函数
第二步:梯度下降计算得到逻辑回归的参数
梯度下降
梯度下降算法用于解决求极值的问题。形象的说,一个人需要登到山顶,那么用梯度下降法来实现上山的步骤为:
1)在山上随机初始化一个点
2)找到相对于该位置而言下降最快的方向
3)沿着第二步找到的方向走一小步α,到达一个新的位置,此时的位置肯定比原来低
4)回到步骤一
5)迭代一定次数,达到最高点
其中系数 α,叫作学习率。更新的方程式为
需要补充一点:如果求解的是极大值,那么学习率 α 大于 0;如果求解的是极小值,那么 α 为负。
类似的,实现梯度下降的步骤如下:
1)随机初始化自变量 w,定义学习率α和迭代次数n
2)计算目标函数 l(w) 在自变量 w 上的梯度,并用梯度方向去更新自变量w
对损失函数求导。于是我们可以得到
3)执行n次步骤2,最终得到极值w
经过上述过程得到逻辑回归的模型为
随机梯度下降
梯度的公式中,有个大型求和运算。每轮的迭代计算都在全部样本上进行,导致计算量大,造成消耗计算资源的问题。
我们可以通过随机梯度下降法来优化性能。即随机选择 1 个样本来代表整体样本进行梯度迭代。使计算量由 n 个样本就被退化至 1 个样本,极大的提升了效率。
假设随机选取的样本为第m个样本,则梯度函数可以修改为(可以在下面的梯度函数中乘以N,这样跟整体的梯度的期望值相等;也可以不用乘以N,在α的设置上做一些调整)
利用这个修改后的梯度函数,就能大幅度缩减计算量啦。
逻辑回归的优化
包括逻辑回归处理多分类问题、过拟合和欠拟合问题、正则化。
作者:罗曼罗,大数据的特种兵,独立数据职业生涯顾问,经历过数据产品经理、数据分析师、算法工程师、增长负责人多种职位,在每个岗位中都获得了可量化的业绩。