机器学习(三)
学习机器学习过程中的心得体会以及知识点的整理,方便我自己查找,也希望可以和大家一起交流。
—— 吴恩达机器学习第五章 ——
四、逻辑回归
- 线性回归局限性
线性回归对于分类问题的局限性:由于离群点的存在,线性回归不适用于分类问题。如下图(阈值为0.5),由于最右离群点,再用线性回归与实际情况不拟合。 - 因此,我们引入 逻辑回归 算法,来解决这个问题。
- 假设陈述
逻辑回归的假设函数值总是在0到1之间,逻辑回归模型:, 使得 。
在线性回归中, ,在逻辑回归中令 ,将带入g(x)得: - 其中被称为Sigmoid函数,也叫Logistic函数。
- ( 对于输入的x,y=1的概率估计)
- 决策界限
决策边界不是训练集的属性,而是假设本身及其参数的属性。
假设有一个训练集:。用一种方法或者假设,得到参数。预测 ,即。则有下图,中间洋红色直线即为 决策边界 - 其他的例子如下图:
- 其他参数更多更复杂的也同理。
- 代价函数
将线性回归的代价函数改写为如下形式:
,进而定义cost函数为 - 将cost function 运用到逻辑回归中:.
- 其中 y 表示实际,hθ(x)表示预测。
- 当y = 1时:
(预测与实际完全不一致,要花费很大的代价惩罚算法) - 当y = 0时:
(预测与实际完全不一致,要花费很大的代价惩罚算法)
- 简化代价函数与梯度下降
将上述式子合并为一个式子:
当y = 1时,后一个式子整体为0;当y = 0时,前一个式子整体为0。进而得到:
求最小代价函数由,得。
注意:
- 逻辑回归的代价函数看似与线性回归的代价函数相同,但本质不同。
- 逻辑回归中的。
- 线性回归中的。
- 逻辑回归解决问题:多元分类
多元分类即结果有多种可能。如下图,有三种可能结果。 - 将它们两两作为一组,方法是将其中一个类别作为正类,其他作为负类,依次建立新的训练集,得到
- 即为,最后需要输入一个x,选择h最大的类别,也即在三个分类器中选择可信度最高,效果最好的。