线性回归
线性模型:
一般用向量形式改成:
,
给定数据集
,其中
。数据集中的属性,分为有序属性和无序属性,有序的属性可以用连续值来代替,而无序的属性值如“黄瓜”,“西瓜”和“冬瓜”等可以用k维向量(1,0,0),(0,1,0),(0,0,1)来代替。
若将无序属性连续化,则会不恰当引入序的关系,对后续处理如距离计算等造成误导。
回归模型中如何确定最佳的w和b呢?均方误差是回归任务中最常用的性能度量,可以试图让均方差最小化:
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”,线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
更一般的情形如本节开头数据集D,样本由d个属性描述:
,称为“多元线性回归”。
Logistic回归:
逻辑回归公式:
一般将概率大于0.5时划为正例,小于0.5时化为反例。
Logistic回归的性质[1]:
- 虽然名字是回归,但是却是一种分类学习的方法
- 直接对分类可能性进行建模,无需事先假设数据分布,避免了假设分布不准确带来的问题
- 不仅预测出“类别”,而且可得到近似概率预测,对许多需要利用概率辅助决策的任务很有用。
- Logistic回归求解的目标函数为任意阶可导的凸函数,有很好的数学性质(梯度下降优化)。
- 逻辑回归最大的优势在于它的输出结果不仅可以用于分类,还可以表征某个样本属于某类别的概率。
- 逻辑斯谛函数将原本输出结果从范围(−∞,+∞) (-infty,+infty)(−∞,+∞) 映射到(0,1),从而完成概率的估测。
- 逻辑回归得判定的阈值能够映射为平面的一条判定边界,随着特征的复杂化,判定边界可能是多种多样的样貌,但是它能够较好地把两类样本点分隔开,解决分类问题。
- 求解逻辑回归参数的传统方法是梯度下降,构造为凸函数的代价函数后,每次沿着偏导方向(下降速度最快方向)迈进一小部分,直至N次迭代后到达最低点。
Logistic回归公式推导:
采用极大似然估计法来估计w和b:
这里我们记需要估计的参数w和b统一为θ。
梯度下降法优化目标函数
:
令
Logistic和SVM几点区别
- loss function L:cross entropy loss,S:hinge loss
- L:所有样本都参与贡献,S:只取离超平面最近的支持向量样本
- L:对概率建模,S:对分类平面建模
- L:处理经验最小化,S:结构最小化(SVM自带L2正则项)
- L:非线性变换减弱分离平面较远点的影响,S:只取支持向量从而消去较远点的影响
- L:统计方法,S:几何方法
多分类学习
Logistic回归是一个二分类模型,但是有时候也需要应对多分类任务。
考虑 N个类别
,经典的多分策略有“一对一”(OvO),“一对其余”(OvR),“多对多”(MvM)。
给定数据集
,
,OvO将N个类别两两匹配,从而产生
个分类任务,对应的可以得到
个分类结果,最终结果可通过投票产生,即把预测得最多的类别作为最终分类的结果。OvR是每次将一个类的样例作为正例,所有其它类作为反例来训练N个分类器,若有多个分类器预测为正类,则通常考虑分类器的预测置信度,选择置信度最大的类别标记作为分类结果。MvM是每次将若干个类作为正类,若干个其他的类作为反类,显然OvO和OvR是MvM的特例。
多分类逻辑回归(softmax函数)
softmax函数公式:
,
,
Softmax代价函数:
,
为指示函数。
仔细观察代价函数会发现,是每个类别所分到的概率的对数和。
参考
- ^逻辑回归的理解