李宏毅上传了2020版本的机器学习视频和吴恩达的CS229机器学习相比,中文版本的机器学习显得亲民了许多,李宏毅的机器学习是英文的ppt+中文讲解,非常有利于大家入门。吴恩达的CS229中偏向于传统机器学习(线性回归、逻辑回归、Naive Bayes、决策树、支持向量机等),李宏毅2020版本的机器学习中除了最前面的回归、分类,后面更多篇幅涉及卷积神经网络(CNN)、循环神经网络(RNN)、强化学习(RL)等深度学习的内容。
文章目录
- Classification
- Probabilistic Gernerative Model 分类:概率遗传模型
- ==**如何完成这个任务?**==
- ==**强行把classification当作regression来做会遇到的问题:**==
- Modifying Model 改造模型
- Probability Distribution 概率分布
- ==**妙啊!**==
- 接下来又是数学部分。。。
- 结论
Classification
Probabilistic Gernerative Model 分类:概率遗传模型
找一个function,input:x,output:属于的class
- 信用评估
input:收入、存款、工作、年纪、过去有无欠款
output:借钱/不借钱 - 医疗诊断
input:症状、年纪、性别、过往病史
output:何种疾病 - 手写文字识别
input:手写文字
output:是什么字 - 人脸辨识
input:一张脸的图像
output:是哪个人
如何完成这个任务?
当仅仅只是将标签映射成一个数字的时候,可以把分类问题当作回归问题,但是其本身压缩了很多信息
强行把classification当作regression来做会遇到的问题:
使用绿色的线代表model的值为0的话,左上角小于0,右下角大于0,越右下越大,>>1。但是用regression的话,会希望蓝色点越接近1越好(太大太小都不行,所以>>1的点对于regression来说是错的点,是不好的),所以这样的两群蓝色和一群红色的点做regression,得到的不会是绿色的线(虽然人看上去他是一个好的boundary),而是紫色的分界线,因为模型会觉得,将线向右偏移,右下角的蓝色点的值就不会>>1了,会更接近1。对于regression来说,这样的function(紫色)却是比较好的。但是对于classification来说,绿色的却是比较好的
Ideal Alternative 理想的做法
推广到类别,生产模型
先验概率
假设所有点都有相同分布——高斯分布
利用局部求出高斯分布的参数,然后应用到未知的的输入,求其概率
如何找μ和
∑
\sum
</span><span ><span class="base"><span class="strut" style="height: 1.00001em; vertical-align: -0.25001em;"></span><span class="mop op-symbol small-op" style="position: relative; top: -5e-06em;">∑</span></span></span></span></span>(参数估计)——最大似然估计<br> 最大似然估计,从样本估计出最可能的模型参数</p>
虽然每一个高斯分布都有可能sample出这些点,但是sample出这些点的概率不一样
找一个概率最大的,作为估计的高斯分布
把正态分布拓展到二维,分别为均值和方差
现在可以做分类问题了
Q:箭头指向的那个概率密度函数还需要对它积分吗
A:不需要了,老师前面解释了将概率密度当成在这个样本点的概率值
A2:分子分母都在积分的时候乘dx,抵消了
只用二维没有办法分出来,acc只有47%
宝可梦是七维空间的一个点
emmm效果依旧和瞎猜一样。。。
Modifying Model 改造模型
如果把不同的高斯分布都给不同的协方差,导致model参数多,使得variance大,容易overfiting过拟合。
所以,不同的class共用一个协方差矩阵,减少参数,避免过拟合
直线就是线性判别函数
二分类的LDA跟线性回归来分类的结果是一样的
定义一个function的好坏:
在概率模型中,要评价的其实是高斯里的参数,产生training data的likehood,就是这组参数的好坏
所以要做的就是找一个概率分布,可以最大化地产生这些data的likehood
Probability Distribution 概率分布
如果假设各个维度相互独立,说明你在使用朴素贝叶斯分类器
妙啊!
接下来又是数学部分。。。
后验概率
结论
由于共用
∑
\sum
</span><span ><span class="base"><span class="strut" style="height: 1.00001em; vertical-align: -0.25001em;"></span><span class="mop op-symbol small-op" style="position: relative; top: -5e-06em;">∑</span></span></span></span></span>,所以可以化简,最后得到z如下式子,可以发现是一个<mark>线性模型</mark>:</strong><br> <img src="" alt="在这里插入图片描述"></p>
综上,我们把一个posterior Probability后验概率
</span><span ><span class="base"><span class="strut" style="height: 1.00001em; vertical-align: -0.25001em;"></span><span class="mop op-symbol small-op" style="position: relative; top: -5e-06em;">∑</span></span></span></span></span>,然后计算得到W和b,带入最终式子算出概率。</p>
弹幕
- 如果不用同一个协方差的话会多出关于x的非线性项
- 朴素贝叶斯 到 线性分类器
- 最后z的展开式的协方差矩阵是不是没有1,2之分了,已经假设共用matrix了
那么,假设最终是找一个W和b,那为什么要算这个概率呢,能不能直接得到W和b呢?下节讲
最后这部分推导是真的牛逼!
补充:
Q:为了减小模型参数,将c1和c2的协方差矩阵作为共享参数,从而减小模型空间,从而避免过拟合。为什么要共享协方差矩阵而不是均值向量呢?
A:共享协方差就是让水属性和一般属性的高斯分布形状相同,也就是认为他们的分布算法是一样的,但靶心不一样。均值向量相当于靶心。