1:逻辑回归与线性回归的联系与区别

答:逻辑回归与线性回归都属于广义线性回归模型。

线性回归中使用的是最小化平方误差损失函数,对偏离真实值越远的数据惩罚越严重;逻辑回归使用对数似然函数进行参数估计,用交叉熵作为损失函数。

逻辑回归首先把样本映射到[0,1]之间的数值,这就归功于sigmoid函数,可以把任何连续的值映射到[0,1]之间,数越大越趋向于0,越小越趋近于1。

2:逻辑回归的原理

答:逻辑回归是适用于分类而不是回归的算法,以二分类为例,将正类设为1,负类设为0,样本x属于属于正类的概率可以用以下的式子来表示:

statsmodels 逻辑回归统计信息 逻辑回归的loss_损失函数


这里的sig是sigmod函数,其定义如下:

statsmodels 逻辑回归统计信息 逻辑回归的loss_正则化_02


通过sigmod函数将输出的值限定在0到1之间。它有一个非常好的性质,即当z趋于正无穷时,g(z)g(z)趋于1,而当z趋于负无穷时,g(z)g(z)趋于0,这非常适合于我们的分类概率模型。输出的值越小,而分类为0的的概率越高,反之,值越大的话分类为1的的概率越高。如果靠近临界点,则分类准确率会下降。

3:逻辑回归损失函数推导及其优化:

statsmodels 逻辑回归统计信息 逻辑回归的loss_损失函数_03

4:正则化与模型评估指标:

答:正则化的目的是为了防止过拟合。正则化就是说给需要训练的目标函数加上一些规则(限制),让他们不要自我膨胀。

正则化通常情况下分为L1正则项和L2正则项,这二者都可以看做是损失函数的“惩罚项”,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

L1正则化是指权值向量w中各个元素的绝对值之和。

L2正则化是指权值向量w中各个元素的平方和然后再求平方根。

一般都会在正则化项之前添加一个系数,这个系数是由用户自己指定的。

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。L2正则化可以防止模型过拟合(overfitting)。

稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0。通常机器学习中特征数量很多,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小。此时我们就可以只关注系数是非零值的特征。

statsmodels 逻辑回归统计信息 逻辑回归的loss_线性回归_04


以上所示是带有L1正则化的损失函数,加号后面的一项是L1正则化项,α 是正则化系数。注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此 J是不完全可微的。无法通过求导的方法求出最值或者极值,只能通过梯度下降的方法。

当我们在原始损失函数J00后添加L1正则化项时,相当于对J0做了一个约束。

5:逻辑回归的优缺点:

答:缺点:对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。

难以拟合复杂的数据

优点:形式简单,可解释性好

6:样本不均衡解决方法

答:搜集更多的数据

改变评判指标

对数据采样针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling和 under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。