一、朴素贝叶斯算法

朴素贝叶斯(Native Bayes)算法是基于贝叶斯定理和特征条件独立假设的分类算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。

贝叶斯定理其实就是一个非常简单的公式,如下所示:

贝叶斯分类算法 java 贝叶斯分类算法有哪些_机器学习

那么,在应用于分类算法中,可以将上述的公式转换成下面的表达式,也就是说知道了某一个数据的特征,它属于某一类别的概率,首先得知道这个特征的概率,然后还需要知道在这一个类的概率和这一个类中的特征的概率。因此需要预先知道类有哪些,也就是说朴素贝叶斯是有监督的学习。

贝叶斯分类算法 java 贝叶斯分类算法有哪些_贝叶斯分类算法 java_02

朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y 。 

设有样本数据集D={d1,d2,...,dn},对应样本数据的特征属性集为X={x1,x2,...,xd}类变量为Y={y1,y2,...ym} ,即D可以分为ym类别。其中{x1,x2,...,xd} 相互独立且随机,则Y的先验概率P(Y) ,Y的后验概率P(Y|X) ,由朴素贝叶斯算法可得,后验概率可以由先验概率P(Y) ,证据P(X) ,类条件概率P(X|Y)计算出

贝叶斯分类算法 java 贝叶斯分类算法有哪些_朴素贝叶斯_03

一般而言,P(X)和P(Y)都是已知的,也就是说某一个特征的概率是已知的,某一个类别的概率也是已知的,那么就需要知道(P(X|Y),也就是需要知道一定类别下所具有的某一特征的概率。由于朴素贝叶斯基于各特征之间相互独立,在给定类别为y的情况下,P(X|Y)可以进一步表示为下式:

贝叶斯分类算法 java 贝叶斯分类算法有哪些_机器学习_04

由以上两式就可以计算出后验概率为:

贝叶斯分类算法 java 贝叶斯分类算法有哪些_朴素贝叶斯_05

由于P(X)的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可,因此可以得到一个样本数据属于类别yi的朴素贝叶斯计算:

贝叶斯分类算法 java 贝叶斯分类算法有哪些_概率论_06

 二、两大问题解决方法

2.1 零概率问题:

测试样例的标签属性中,出现了模型训练过程中没有记录的值,或者某个分类没有记录的值,从而出现该标签属性值的出现概率 P(wi|Ci) = 0 的现象。因为 P(w|Ci) 等于各标签属性值 P(wi|Ci) 的乘积,当分类 Ci 中某一个标签属性值的概率为 0,最后的 P(w|Ci) 结果也为 0。很显然,这不能真实地代表该分类出现的概率

解决方法:拉普拉斯修正,又叫拉普拉斯平滑,这是为了解决零概率问题而引入的处理方法。其修正过程:

贝叶斯分类算法 java 贝叶斯分类算法有哪些_朴素贝叶斯_07

2.2 浮点数溢出问题:

在计算 P(w|Ci) 时,各标签属性概率的值可能很小,而很小的数再相乘,可能会导致浮点数溢出。解决方法:对 P(w|Ci) 取对数,把概率相乘转换为相加。

贝叶斯分类算法 java 贝叶斯分类算法有哪些_朴素贝叶斯_08