文章目录
- 6.3 朴素贝叶斯估计
- 6.3 朴素贝叶斯估计
- 6.3.1 原理
- 离散属性
- 连续属性
- 6.3.2 具体流程
- 6.3.3 拉普拉斯修正
6.3 朴素贝叶斯估计
6.3 朴素贝叶斯估计
- 基于第一章 的
贝叶斯准则
,将条件风险转化为了先验概率和似然。 - 又基于第二章
极大似然估计
获得了通过优化似然函数得到极大似然估计的方法。 - 采用“属性条件独立性假设”:假设每个属性独立地对分类结果发生影响。
6.3.1 原理
朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
基于贝叶斯公式来估计后验概率的主要困难在于:类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计而得。
(基于有限训练样本直接估计联合概率,在计算上斗争会遭遇纽合爆炸问题,在数据上将会遭遇样本稀疏问题,属性数越多,问题越严重.)
为避开这个障碍,朴素贝叶斯分类器(naÏve Bayes classifier)采用了"属性条件独立性假设" (attribute conditional independence assumption): 对已知类别,假设所有属性相互独立.换言之,假设每个属性独立地对分类结果发生影响.
基于属性条件独立性假设。根据式子可以重写为
其中为属性数目, 为在第个属性上的取值。
由于对所有类别来说相同,因此基于式的贝叶斯判定准则
有
这就是朴素贝叶斯分类器的表达式。
朴素贝叶斯的训练过程就是基于训练集D来估计类先验概率P©,并为每个属性估计条件概率。
离散属性
对离散属性而言,令表示中在第个属性上取值为的样本组成的集合,则条件概率可估计为
连续属性
对连续属性可考虑概率密度函数,假定,其中和,分别是第类样本在第个属性上取值的均值和方差,则有
下面是别人的PPT,写的比较好。截图了下面
为了避免其他属性携带的信息被训练集中未出现的属性值"抹去’,在估计概率值时通常要进行"平滑" (smoothing) ,常用"拉普拉斯修正" (Laplacian correction)。拉普拉斯修正实质上假设了属性值与类别均匀分布。
6.3.2 具体流程
首先看数据集。
然后我们对一个测试集进行分类
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
测试1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.697 | 0.460 | ? |
是所有样本,是每个属性,是好瓜
首先我们计算出先验概率,显然有
好瓜=是
好瓜=否
对每个属性估计条件概率
下面是离散值
下面是连续值
于是,好瓜
由于.我们判断测试1位好瓜
6.3.3 拉普拉斯修正
对于此数据集,对"敲声=清脆”的测试用例。
由于连乘的公式概率值为0,不管其他分类结果如何。结果都是否。不符合常理
所以为了避免其他属性携带的信息被训练集中未出现的属性值"抹去"。常用拉普拉斯修正
令N表示训练集D中可能的类别,表示第i个属性可能的取值数。
所以其中类先验概率
,因为类别就两种,好瓜和坏瓜。类别为2
,因为可以取值为清脆,浊响,沉闷。取值数为3