朴素贝叶斯分类器是一种基于概率
理论的监督学习算法,广泛应用于文本分类、垃圾邮件过滤和情感分析
等领域。
它基于贝叶斯定理,并做出一个“朴素”假设,即特征之间相互独立。
贝叶斯定理公式:
这里:
- 是
后验概率
,表示在观察到特征 的情况下
类别 - 是
似然度
,表示在类别 已知的情况下 观察到特征 - 是
先验概率
,表示在没有其他信息的情况下
类别 - 是
证据
,表示观察到特征
的总概率,它是归一化因子
,确保所有可能类别的后验概率之和等于 1。
朴素贝叶斯中的应用:
在朴素贝叶斯中,我们通常处理多个特征 ,因此公式扩展为:
但由于特征之间的独立性
假设,我们有:
因此公式简化为:
在实际应用中,因为 对所有类别来说是相同的
,我们通常省略它,只关注分子部分,以确定哪个类别的后验概率最大:
这里:
- 表示
分类器预测的类别。
- 表示
选取使得括号内表达式最大的类别
。
示例解释:
例如,如果我们正在构建一个邮件分类器
,特征
可能包括单词是否出现在邮件中,而类别可能是“垃圾邮件”或“非垃圾邮件”。假设我们有以下数据:
- “垃圾邮件”类别占所有邮件的 40%。
- “非垃圾邮件”类别占所有邮件的 60%。
- 单词“赢”在“垃圾邮件”中出现的
概率
是 70%,而在“非垃圾邮件”中是 10%。
如果收到一封含有单词“赢”的新邮件,朴素贝叶斯分类器将计算两个后验概率:
- 和 ,
- 分别基于
先验概率
和单词“赢”在不同类别中的似然度。
分类器会比较这两个概率,并将邮件分类为具有较高后验概率的类别
。这就是朴素贝叶斯算法如何工作的基本原理。