前提:朴素贝叶斯是基于特征条件独立假设成立的,即用于分类的特征在类确定的条件下都是条件独立的。



一.分类器

    

二.参数估计

1.最大似然估计

        已知模型,参数未知。是一种参数估计方法。最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率。这点与贝叶斯估计区别。

        最大似然估计的一般求解过程:

  (1) 写出似然函数;

  (2) 对似然函数取对数,并整理;

  (3) 求导数 ;

  (4) 解似然方程

2.最大后验估计

         在似然的基础上,由综合考虑了先验信息。

                                                     p(y|x)=p(y).p(x|y)

        其中,p(y)为先验信息,p(x|y)为似然信息

  注:(1)MLE&MAP参数估计的例子可参考

         (2)关于MLE和MAP还可参考

3.贝叶斯估计

         



优点:

         (1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。

    (2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。

    (3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。

缺点:

         (1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

   (2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

  (3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。


  (4)对输入数据的表达形式很敏感。


       (5)条件独立假设过强,准确率不高