李宏毅上传了2020版本的机器学习视频和吴恩达的CS229机器学习相比,中文版本的机器学习显得亲民了许多,李宏毅的机器学习是英文的ppt+中文讲解,非常有利于大家入门。吴恩达的CS229中偏向于传统机器学习(线性回归、逻辑回归、Naive Bayes、决策树、支持向量机等),李宏毅2020版本的机器学习中除了最前面的回归、分类,后面更多篇幅涉及卷积神经网络(CNN)、循环神经网络(RNN)、强化学习(RL)等深度学习的内容。


李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习

文章目录

  • Classification
  • Probabilistic Gernerative Model 分类:概率遗传模型
  • ==**如何完成这个任务?**==
  • ==**强行把classification当作regression来做会遇到的问题:**==
  • Modifying Model 改造模型
  • Probability Distribution 概率分布
  • ==**妙啊!**==
  • 接下来又是数学部分。。。
  • 结论

Classification

Probabilistic Gernerative Model 分类:概率遗传模型

找一个function,input:x,output:属于的class

  • 信用评估
    input:收入、存款、工作、年纪、过去有无欠款
    output:借钱/不借钱
  • 医疗诊断
    input:症状、年纪、性别、过往病史
    output:何种疾病
  • 手写文字识别
    input:手写文字
    output:是什么字
  • 人脸辨识
    input:一张脸的图像
    output:是哪个人


如何完成这个任务?

当仅仅只是将标签映射成一个数字的时候,可以把分类问题当作回归问题,但是其本身压缩了很多信息

李宏毅 机器学习2020 李宏毅classification课程笔记_神经网络_02

强行把classification当作regression来做会遇到的问题:

使用绿色的线代表model的值为0的话,左上角小于0,右下角大于0,越右下越大,>>1。但是用regression的话,会希望蓝色点越接近1越好(太大太小都不行,所以>>1的点对于regression来说是错的点,是不好的),所以这样的两群蓝色和一群红色的点做regression,得到的不会是绿色的线(虽然人看上去他是一个好的boundary),而是紫色的分界线,因为模型会觉得,将线向右偏移,右下角的蓝色点的值就不会>>1了,会更接近1。对于regression来说,这样的function(紫色)却是比较好的。但是对于classification来说,绿色的却是比较好的

李宏毅 机器学习2020 李宏毅classification课程笔记_机器学习_03

Ideal Alternative 理想的做法

李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_04


李宏毅 机器学习2020 李宏毅classification课程笔记_李宏毅 机器学习2020_05


推广到类别,生产模型

李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_06


先验概率

李宏毅 机器学习2020 李宏毅classification课程笔记_机器学习_07


李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_08


假设所有点都有相同分布——高斯分布

李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_09


李宏毅 机器学习2020 李宏毅classification课程笔记_神经网络_10


利用局部求出高斯分布的参数,然后应用到未知的的输入,求其概率

李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_11


如何找μ和

∑
   
  
  
   \sum
  
 
</span><span ><span class="base"><span class="strut" style="height: 1.00001em; vertical-align: -0.25001em;"></span><span class="mop op-symbol small-op" style="position: relative; top: -5e-06em;">∑</span></span></span></span></span>(参数估计)——最大似然估计<br> 最大似然估计,从样本估计出最可能的模型参数</p>

虽然每一个高斯分布都有可能sample出这些点,但是sample出这些点的概率不一样

李宏毅 机器学习2020 李宏毅classification课程笔记_协方差矩阵_12


找一个概率最大的,作为估计的高斯分布

李宏毅 机器学习2020 李宏毅classification课程笔记_李宏毅 机器学习2020_13


把正态分布拓展到二维,分别为均值和方差

李宏毅 机器学习2020 李宏毅classification课程笔记_神经网络_14


现在可以做分类问题了

Q:箭头指向的那个概率密度函数还需要对它积分吗
A:不需要了,老师前面解释了将概率密度当成在这个样本点的概率值
A2:分子分母都在积分的时候乘dx,抵消了

李宏毅 机器学习2020 李宏毅classification课程笔记_机器学习_15

只用二维没有办法分出来,acc只有47%

宝可梦是七维空间的一个点

李宏毅 机器学习2020 李宏毅classification课程笔记_李宏毅 机器学习2020_16


emmm效果依旧和瞎猜一样。。。

Modifying Model 改造模型

如果把不同的高斯分布都给不同的协方差,导致model参数多,使得variance大,容易overfiting过拟合。
所以,不同的class共用一个协方差矩阵,减少参数,避免过拟合

李宏毅 机器学习2020 李宏毅classification课程笔记_李宏毅 机器学习2020_17


李宏毅 机器学习2020 李宏毅classification课程笔记_神经网络_18

李宏毅 机器学习2020 李宏毅classification课程笔记_机器学习_19

直线就是线性判别函数
二分类的LDA跟线性回归来分类的结果是一样的

定义一个function的好坏:
在概率模型中,要评价的其实是高斯里的参数,产生training data的likehood,就是这组参数的好坏

所以要做的就是找一个概率分布,可以最大化地产生这些data的likehood

李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_20

Probability Distribution 概率分布

如果假设各个维度相互独立,说明你在使用朴素贝叶斯分类器

李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_21

妙啊!

李宏毅 机器学习2020 李宏毅classification课程笔记_机器学习_22

接下来又是数学部分。。。

李宏毅 机器学习2020 李宏毅classification课程笔记_协方差矩阵_23


后验概率

李宏毅 机器学习2020 李宏毅classification课程笔记_协方差矩阵_24


李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_25

李宏毅 机器学习2020 李宏毅classification课程笔记_李宏毅 机器学习2020_26


李宏毅 机器学习2020 李宏毅classification课程笔记_深度学习_27

结论

由于共用

∑
    
   
   
    \sum
   
  
 </span><span ><span class="base"><span class="strut" style="height: 1.00001em; vertical-align: -0.25001em;"></span><span class="mop op-symbol small-op" style="position: relative; top: -5e-06em;">∑</span></span></span></span></span>,所以可以化简,最后得到z如下式子,可以发现是一个<mark>线性模型</mark>:</strong><br> <img src="" alt="在这里插入图片描述"></p>

综上,我们把一个posterior Probability后验概率

</span><span ><span class="base"><span class="strut" style="height: 1.00001em; vertical-align: -0.25001em;"></span><span class="mop op-symbol small-op" style="position: relative; top: -5e-06em;">∑</span></span></span></span></span>,然后计算得到W和b,带入最终式子算出概率。</p>

弹幕

  • 如果不用同一个协方差的话会多出关于x的非线性项
  • 朴素贝叶斯 到 线性分类器
  • 最后z的展开式的协方差矩阵是不是没有1,2之分了,已经假设共用matrix了

那么,假设最终是找一个W和b,那为什么要算这个概率呢,能不能直接得到W和b呢?下节讲

最后这部分推导是真的牛逼!

补充:

Q:为了减小模型参数,将c1和c2的协方差矩阵作为共享参数,从而减小模型空间,从而避免过拟合。为什么要共享协方差矩阵而不是均值向量呢?
A:共享协方差就是让水属性和一般属性的高斯分布形状相同,也就是认为他们的分布算法是一样的,但靶心不一样。均值向量相当于靶心。