想要了解线性回归和逻辑回归的差别,我们首先要明白线性回归中的线性具体是什么意思,请参考这篇文章:#深入理解# 线性回归中的“线性”、以及最小二乘和梯度下降的理解
1. 线性回归
线性回归中的线性是将拟合函数中的x看做是常数,参数看作是自变量后,函数的最高次项为1;形式为:
线性回归中的线性只是指其中的拟合函数是线性,和损失函数没有关系;损失函数是衡量一个拟合函数和真实值之间偏差的一种函数
损失函数一般使用 MSE、RMSE、MAE等,因为逻辑回归输出值是0~1本身给出的就是一个该概率值,而线性回归没有激活函数需要使用某种方式构造一种损失,那么最容易想到的便是最小二乘或RMSE,MAE等
2. 逻辑回归(LR)
逻辑回归在线性回归的基础上增加了激活函数(sigmoid)将输出限制在0到1,因此我们用交叉熵作为逻辑回归的损失函数,这里简述以下交叉熵和sigmoid激活函数:
2.1 交叉熵
1. 熵的定义:
2. KL散度的定义:
因为标签分布不变,所以
可以看作常数,因此最小化KL散度等价于最小化后边这一项,这一项就是交叉熵
3.交叉熵的定义
KL散度是在p分布为基础衡量不同q分布和q分布的相似程度,KL散度越小,p和q的分布越相似,最小化交叉熵等价于最小化KL散度
2.2 sigmoid激活函数
sigmoid激活函数及其导数为:
2.3 二元交叉熵损失函数
针对上述交叉熵公式,我们可以从两个方面来理解:
2.3.1
2.3.2 用极大似然估计的思想推导交叉熵公式:
- 求所有值预测正确的似然函数并最大化,
- 对这个似然函数取 - log 将最大化似然函数转化为最小化损失函数从而求解参数值(log还能将指数运算转化为乘法运算,乘法运算转化为加法运算,从而降低运算量)
注:因为每个样本之间是相互独立的,因此对所有样本预测成功的概率等于多个样本预测成功的联合概率分布,等于每个样本预测概率的乘积