2. 感知机学习算法与逻辑回归的区别

  区别1:这两位都是线性分类器,但是逻辑回归使用对数损失函数,而感知机使用的是均方损失函数(即错误点到分离平面的距离,最小化该值)。

  区别2:逻辑回归的激活函数也与感知机不同,前者是sigmoid函数,后者是一个阶跃函数:

感知机和逻辑回归习题 感知机和逻辑回归区别_机器学习


  这就导致逻辑回归连续可导,使得最终结果有了概率解释的能力。而阶跃函数是一个分段函数非0即1,分类粗糙。

  那问题又来了,针对第一个区别,为什么逻辑回归不能用均方损失左损失函数呢?

  我们设想可以,则优化的目标函数为:

感知机和逻辑回归习题 感知机和逻辑回归区别_似然函数_02


  这个目标函数是非凸的,不容易求解,会得到局部最优。而用极大似然,对数似然函数是高阶连续可导凸函数,方便用梯度下降或者牛顿方法等凸优化方法来进行优化。

  此外,综合线性回归,逻辑回归和感知机学习。

  • 感知机算法仅在线性可分条件下有效,非线性则需要pocket算法
  • 线性回归容易优化,在0/1错误下对于|ys|有比较宽松的VC维界
  • 逻辑回归同样容易优化,在0/1错误下对于感知机和逻辑回归习题 感知机和逻辑回归区别_机器学习_03有比较宽松的VC维界
      这里问题又来了,啥是VC维界,详细可以这篇文章解读机器学习基础概念:VC维的来龙去脉,简单来说就是VC维反映了假设空间的强大程度。VC维越大,H越强,即可以打散更多的点。

3. 牛顿方法

感知机和逻辑回归习题 感知机和逻辑回归区别_感知机_04使得感知机和逻辑回归习题 感知机和逻辑回归区别_损失函数_05

感知机和逻辑回归习题 感知机和逻辑回归区别_感知机_06


  如果要最大化目标函数,可以令:

感知机和逻辑回归习题 感知机和逻辑回归区别_感知机和逻辑回归习题_07


  即最大值时一阶导数为0,得到新的参数更新规则:

感知机和逻辑回归习题 感知机和逻辑回归区别_损失函数_08

感知机和逻辑回归习题 感知机和逻辑回归区别_感知机_04时向量,所以进一步对牛顿方法进行推广到多维,得到牛顿-拉夫森方法:

感知机和逻辑回归习题 感知机和逻辑回归区别_似然函数_10

感知机和逻辑回归习题 感知机和逻辑回归区别_感知机_11表示偏导,感知机和逻辑回归习题 感知机和逻辑回归区别_机器学习_12感知机和逻辑回归习题 感知机和逻辑回归区别_损失函数_13矩阵,称为Hessian矩阵:

感知机和逻辑回归习题 感知机和逻辑回归区别_感知机和逻辑回归习题_14

感知机和逻辑回归习题 感知机和逻辑回归区别_感知机_15的值比较小,牛顿方法就更好。使用牛顿方法最大化对数似然函数的方法也称为Fisher scoring。