1. 朴素贝叶斯分类器概述
2. 贝叶斯决策论
2.1 后验概率
2.2 贝叶斯定理
3. 朴素贝叶斯分类算法原理
4. 朴素贝叶斯分类的优缺点
1. 朴素贝叶斯分类器概述:
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。朴素贝叶斯算法中“朴素”俩个字是一个简单的假设,假设样本的取值不会相互影响,即样本之间都是独立的。实际情况下各个样本之间是有影响的,但是从实验结果来看,朴素贝叶斯分类的结果相当不错的。
2.1 后验概率
一件事在给定观测值的条件下发生的概率就是后验概率,后验概率其实就是条件概率。
2.2 贝叶斯定理
贝叶斯分类器用到了贝叶斯定理,贝叶斯定理离不开条件概率,首先先来看一下条件概率:
条件概率定义: 事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作 “在B发生的条件下A发生的概率”
根据上图
表示在事件B发生的条件下,A发生的概率。因此有
可得 贝叶斯定理为
3. 朴素贝叶斯分类算法原理
利用训练样本求出贝叶斯公司公式的内容,即P(A|B)、P(B)、P(A) ,从而预测等式左边的值。
举例:假设某数据集有x, y俩个特征值,所属的分类标签有c1 和 c2 俩个。从训练样本中我们可以求得带有x 和 y特征的样本概率即
:同样也可以求出某一类标签的概率即
,又可以求出在给定分类条件下具有某个特征的样本概率即
通过贝叶斯公式原理:
求出样本数据预测的分类。如果
p(c_{2}|x,y)" title="p(c_{1}|x,y) > p(c_{2}|x,y)" style="width: 165px; visibility: visible;" data-type="block">
则预测样本分类为1如果
则预测样本分类为2
这就是贝叶斯分类器最简单的原理。
4. 朴素贝叶斯分类的优缺点:
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感