1. 朴素贝叶斯分类器概述

2. 贝叶斯决策论

    2.1 后验概率

    2.2 贝叶斯定理

3. 朴素贝叶斯分类算法原理

4. 朴素贝叶斯分类的优缺点

 

1. 朴素贝叶斯分类器概述:

贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。朴素贝叶斯算法中“朴素”俩个字是一个简单的假设,假设样本的取值不会相互影响,即样本之间都是独立的。实际情况下各个样本之间是有影响的,但是从实验结果来看,朴素贝叶斯分类的结果相当不错的。

2.1 后验概率

一件事在给定观测值的条件下发生的概率就是后验概率,后验概率其实就是条件概率。

2.2 贝叶斯定理

贝叶斯分类器用到了贝叶斯定理,贝叶斯定理离不开条件概率,首先先来看一下条件概率:

条件概率定义: 事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作 “在B发生的条件下A发生的概率”

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_分类算法

根据上图 

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_西瓜书 朴素贝叶斯分类器_02

 表示在事件B发生的条件下,A发生的概率。因此有 

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_朴素贝叶斯_03

可得 贝叶斯定理为   

                                                                            

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_分类算法_04

3. 朴素贝叶斯分类算法原理

利用训练样本求出贝叶斯公司公式的内容,即P(A|B)、P(B)、P(A) ,从而预测等式左边的值。

举例:假设某数据集有x, y俩个特征值,所属的分类标签有c1 和 c2 俩个。从训练样本中我们可以求得带有x 和 y特征的样本概率即

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_分类算法_05

:同样也可以求出某一类标签的概率即

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_西瓜书 朴素贝叶斯分类器_06

,又可以求出在给定分类条件下具有某个特征的样本概率即

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_西瓜书 朴素贝叶斯分类器_07

 

通过贝叶斯公式原理:

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_条件概率_08

    求出样本数据预测的分类。如果  

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_西瓜书 朴素贝叶斯分类器_09 p(c_{2}|x,y)" title="p(c_{1}|x,y) > p(c_{2}|x,y)" style="width: 165px; visibility: visible;" data-type="block">

 则预测样本分类为1如果 

西瓜书 朴素贝叶斯分类器 朴素贝叶斯分类器算法_朴素贝叶斯_10

 则预测样本分类为2

这就是贝叶斯分类器最简单的原理。

4. 朴素贝叶斯分类的优缺点:

优点:在数据较少的情况下仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感