逻辑斯蒂回归模型(对数几率回归 Logisitic Regression)
未完待续!!!
1.模型介绍
Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 具有简单、可并行化、可解释强等优点。
逻辑回归由于存在易于实现、解释性好以及容易扩展等优点,被广泛应用于点击率预估(CTR)、计算广告(CA)以及推荐系统(RS)等任务中。逻辑回归虽然名字叫做回归,但实际上却是一种分类学习方法。
Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。
2. Logistic 分布
Logistic 分布是一种连续型的概率分布,其分布函数和密度函数分别为:
2.1 Logistic回归
决策边界可以表示为
假设某个样本点
那么可以判断它的类别为 1,这个过程其实是感知机。
Logistic 回归还需要加一层,它要找到分类概率 P(Y=1) 与输入向量x 的直接关系,然后通过比较概率值来判断类别。
逻辑回归中选择对数几率函数(logistic function)作为激活函数,对数几率函数是Sigmoid函数(形状为S的函数)的重要代表。
3.sigmod函数:
sigmoid函数又叫对数几率函数,他能将输出压缩到0-1之内。
Logistic Regression公式:
Logistic Regression算法是将线性函数的结果映射到了sigmoid函数中。可以将sigmoid函数看成样本数据的概率密度函数。
逻辑回归的输出是有概率意味的,它的输出结果表达的是当前测试样本属于1类别的概率。
参考周志华的《机器学习》
对数几率:
将上式写为概率形式:
显然有二项logistic regression条件概率分布:
这时,线性函数的值越接近正无穷,概率值就越接近1;越接近负无穷,概率值就越接近0。这样的模型就是逻辑斯蒂回归模型。
4.模型参数估计
logistics regression模型学习时,对于给定数据集,可以用极大似然估计法来求出其参数即完成了模型的训练。
对数似然函数为:
设:
似然函数为:
对数似然函数为:
对求极大值,得到
的估计值。
这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯蒂回归学习中通常采用的方法是梯度下降法及拟牛顿法。
5. 损失函数
6.正则化
7.LR适用场景