一、简要概述LDA主题模型的核心思想:

1、LDA理念

在LDA中,假设一篇文章对应一个或多个主题,一个主题对应一个单词分布。

现给定“文章”,我们可以根据这些“文章”,利用LDA算法求得各个文章的“主题”,其中“主题的个数”由作者自定义。LDA算法属于unsupervised learning,利用LDA算法求解主题的思路如下:
由于一篇文章对应一个或多个主题,一个主题对应一个单词分布,因此,我们可知:
p(w|d) = p(w|t)*p(t|d),其中{w:单词,d:文章,t:主题}。
现给定training document,为求其主题,我们可以通过不断迭代而实现,具体过程如下:
step1:初始化 p(w|t),p(t|d);
step2:根据初始化的p(w|t),p(t|d),我们可以得到每个topic下的p(w|d),选取p(w|d)值最大时的topic作为word的主题。如果此时word的topic发生变化,则相应的更新p(w|t),p(t|d)。
step3:不断重复上述2个步骤,直到p(w|t),p(t|d)收敛,即得到各个document的topic。
note that:
p(t|d) = word_t_count / word_d_count;其中word_t_count为文档d中属于主题t的word的个数,word_d_count为文档d中word的个数;
p(w|t) = word_coun / word_t ;其中word_count为主题t中word的个数,word_t为主题t中word的总数;

2、LDA模型所用分布

LDA模型遵循了“贝叶斯思想”,即:后验概率 = 先验概率 + 似然概率,由于在LDA中,主题是通过不断迭代来确定,即:第i次迭代获得的后验概率,会被用为第i+1次迭代中的先验概率,为了使得先验概率和后验概率的分布一致,在LDA中我们采用“共轭分布”来诠释模型。

在LDA中,似然概率为二项分布(多项分布),先验概率为beta分布(狄利克雷分布),后验概率为beta分布(狄利克雷分布)。

在LDA中,document下的topic分布,以及topic下的word分布 服从“狄利克雷分布”(先验分布),p(t|d),p(w|t)(后验分布)的计算采用多项分布(似然概率),即对于p(t|d)有,Dirichlet(t|d) = Dirichlet(t) + Multicount(t_count)。同理对于p(w|t)有,Dirichlet(w|t) = Dirichlet(w) + Multicount(w_count)。

具体可查看LDA的公式版解析:文本主题模型之LDA(一) LDA基础。

二、LDA PPT

1、LDA解析

如何确定LDA主题模型的主题个数 lda模型 主题个数确定_算法


如何确定LDA主题模型的主题个数 lda模型 主题个数确定_如何确定LDA主题模型的主题个数_02


如何确定LDA主题模型的主题个数 lda模型 主题个数确定_概率论_03


如何确定LDA主题模型的主题个数 lda模型 主题个数确定_概率论_04

2、LDA和PLSA的对比

简而言之,PLSA遵循“频率学派思想”,LDA遵循“贝叶斯派思想”。

如何确定LDA主题模型的主题个数 lda模型 主题个数确定_概率论_05