朴素贝叶斯分类器是一种基于概率理论的监督学习算法,广泛应用于文本分类、垃圾邮件过滤和情感分析等领域。

它基于贝叶斯定理,并做出一个“朴素”假设,即特征之间相互独立。

贝叶斯定理公式:

朴素贝叶斯(Naive Bayes,NB)_概率

这里:

  • 朴素贝叶斯(Naive Bayes,NB)_概率论_02后验概率,表示在观察到特征 朴素贝叶斯(Naive Bayes,NB)_监督_03情况下类别 朴素贝叶斯(Naive Bayes,NB)_朴素贝叶斯_04
  • 朴素贝叶斯(Naive Bayes,NB)_分类_05似然度,表示在类别 朴素贝叶斯(Naive Bayes,NB)_朴素贝叶斯_04 已知的情况下 观察到特征 朴素贝叶斯(Naive Bayes,NB)_监督_03
  • 朴素贝叶斯(Naive Bayes,NB)_监督_08先验概率,表示在没有其他信息的情况下类别 朴素贝叶斯(Naive Bayes,NB)_朴素贝叶斯_04
  • 朴素贝叶斯(Naive Bayes,NB)_分类_10证据,表示观察到特征 朴素贝叶斯(Naive Bayes,NB)_监督_03 的总概率,它是归一化因子,确保所有可能类别的后验概率之和等于 1。

朴素贝叶斯中的应用:

在朴素贝叶斯中,我们通常处理多个特征 朴素贝叶斯(Naive Bayes,NB)_概率论_12,因此公式扩展为:
朴素贝叶斯(Naive Bayes,NB)_监督_13

但由于特征之间的独立性假设,我们有:
朴素贝叶斯(Naive Bayes,NB)_分类_14

因此公式简化为:
朴素贝叶斯(Naive Bayes,NB)_概率_15

在实际应用中,因为 朴素贝叶斯(Naive Bayes,NB)_概率_16 对所有类别来说是相同的,我们通常省略它,只关注分子部分,以确定哪个类别的后验概率最大:朴素贝叶斯(Naive Bayes,NB)_分类_17

这里:

  • 朴素贝叶斯(Naive Bayes,NB)_朴素贝叶斯_18 表示分类器预测的类别。
  • 朴素贝叶斯(Naive Bayes,NB)_概率_19 表示选取使得括号内表达式最大的类别 朴素贝叶斯(Naive Bayes,NB)_朴素贝叶斯_04

示例解释:

例如,如果我们正在构建一个邮件分类器特征可能包括单词是否出现在邮件中,而类别可能是“垃圾邮件”或“非垃圾邮件”。假设我们有以下数据:

  • “垃圾邮件”类别占所有邮件的 40%。
  • “非垃圾邮件”类别占所有邮件的 60%。
  • 单词“赢”在“垃圾邮件”中出现的概率是 70%,而在“非垃圾邮件”中是 10%。

如果收到一封含有单词“赢”的新邮件,朴素贝叶斯分类器将计算两个后验概率:

  • 朴素贝叶斯(Naive Bayes,NB)_概率_21朴素贝叶斯(Naive Bayes,NB)_监督_22
  • 分别基于先验概率和单词“赢”在不同类别中的似然度。

分类器会比较这两个概率,并将邮件分类为具有较高后验概率的类别。这就是朴素贝叶斯算法如何工作的基本原理。