1.传统的机器学习

1.1朴素贝叶斯朴素贝叶斯的原理

贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。
我们先看看条件独立公式,如果X和Y相互独立,则有:
P(X,Y)=P(X)P(Y)
P(X,Y)=P(X)P(Y)

我们接着看看条件概率公式:
P(Y|X)=P(X,Y)/P(X)

P(Y|X)=P(X,Y)/P(X)

P(X|Y)=P(X,Y)/P(Y)

P(X|Y)=P(X,Y)/P(Y)
或者说:
P(Y|X)=P(X|Y)P(Y)/P(X)

P(Y|X)=P(X|Y)P(Y)/P(X)
接着看看全概率公式
P(X)=∑kP(X|Y=Yk)P(Yk)其中∑kP(Yk)=1

P(X)=∑kP(X|Y=Yk)P(Yk)其中∑kP(Yk)=1

从上面的公式很容易得出贝叶斯公式:
P(Yk|X)=P(X|Yk)P(Yk)∑kP(X|Y=Yk)P(Yk)

可以发现我们要求一个后验概率,首先就要知道两个要素一个是先验概率和类概率,这两个都是需要在train 你的训练集时候得出的

2. 利用朴素贝叶斯模型进行文本分类

朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)即为词频型和伯努利模型(Bernoulli model)即文档型,还有一种高斯模型。
前二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。计算后验概率时,对于一个文档d,多项式模型中,只有在d中出现过的单词,才会参与后验概率计算,伯努利模型中,没有在d中出现,但是在全局单词表中出现的单词,也会参与计算,不过是作为“反方”参与的。
这里暂不考虑特征抽取、为避免消除测试文档时类条件概率中有为0现象而做的取对数等问题。

3. SVM的原理

3.1快速理解SVM原理
给定训练样本,支持向量机建立一个超平面作为决策曲面,使得正例和反例的隔离边界最大化。
决策曲面的初步理解可以参考如下过程,

1)如下图想象红色和蓝色的球为球台上的桌球,我们首先目的是找到一条曲线将蓝色和红色的球分开,于是我们得到一条黑色的曲线

NLP 的前提假设_文本分类


2) 为了使黑色的曲线离任意的蓝球和红球距离(也就是我们后面要提到的margin)最大化,我们需要找到一条最优的曲线。如下图,

NLP 的前提假设_先验概率_02


3) 想象一下如果这些球不是在球桌上,而是被抛向了空中,我们仍然需要将红色球和蓝色球分开,这时就需要一个曲面,而且我们需要这个曲面仍然满足跟所有任意红球和蓝球的间距的最大化。需要找到的这个曲面,就是我们后面详细了解的最优超平面。

NLP 的前提假设_NLP 的前提假设_03


4) 离这个曲面最近的红色球和蓝色球就是Support Vector。

  1. 利用SVM模型进行文本分类
    具体 参考
  2. pLSA、共轭先验分布;LDA主题模型原理
    pLSA:
    参考:
    LDA主题模型原理:
    参考:
  3. 使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类
    参考:
    参考:
    1.
    2.
    3.