On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking 阅读笔记
1.简介
- 论文题目:On-line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking
- 论文出处:Eighth IEEE International Conference on Data Mining
- 发表时间:12/15/2008
2.Motivation
基于LDA(隐含狄利克雷分布模型),本文提出了一种OLDA(On-Line LDA)模型,解决了利用LDA模型在线工作的问题。该论文提出的方法可以处理实时的流式数据,利用新信息中的信息增量对模型进行动态更新。
同时本文也提出了一种方法,动态监测主题变化,捕获主题随时间的演变
3.Model
OLDA是基于LDA提出的,这里先简述一下LDA的过程。
3.1.LDA
LDA是一个分层的贝叶斯网络,它通过在文档和单词中间定义潜在主题,将单词和文档联系起来。同时,文档和主题分布是独立的。通过分别在文档分布和主题分布上引入Dirichlet先验α和β,可以通过分层采样以及权重更新,就可以获得P(w|d),也就是文档的主题分布。
LDA的概率模型图:
LDA主题生成过程:
这里采用论文中的表述过程叙述LDA的过程
其中,K、D分别为主题和文档的总个数。
简述其过程为:
首先从Dirichlet先验β中,采样得到主题下词语的多项式分布,同时从Dirichlet先验α中,采样得到文档下主题的多项式分布;
两步采样完成后,对于语料库中所有的文档 中所有的单词做如下操作:
- 从主题分布中采样主题
- 从词语分布中采样词语
其中,和通常采用吉布斯采样的方式来估算,而最关键的则通过蒙特卡洛算法进行近似。求解将当前单词标记给主题其迭代式如下:
其中为单词被标记为主题的次数,不包括当前词。表示主题被标记为单词的次数,不包括当前文档。从这样的分布中,抽取一个主题并存储为一个单词Token新的topic assigment。在重复足够多次的采样和迭代以后,我们可以通过检查以及来使用近似后验估计得到和。
3.2.OLDA的生成过程与近似推断
OLDA的推断过程与LDA总体类似类似,其引入了一些新的变量来描述其Online的工作流程:
符号 | 含义 |
时间片大小,取决于语料库 | |
针对接受到的数据流生成的时间滑动窗口 | |
简化矩阵,其列为单词的主题分布 | |
文档流 | |
流中的最新文档 | |
时间t内接受到文档的词向量 | |
的权重向量,其元素和为1 |
OLDA的问题,有如下几个特征:
- 动态更新的文档流会带来新单词,也有可能带来新的主题
- 动态更新的过程中,狄利克雷先验β应该是变化的,因为传入的词语会改变
因此对于改变的β,这里引入的计算方法是,通过简化矩阵以及更新权重来实时计算更新窗口的
下面是OLDA的算法过程:
其中,就是更新动态 的过程。我们可以看到,其主要变化就在这里,也因此该过程的模型先验仍然是狄利克雷分布,换言之其过程的分布仍然是共轭的,可以简化推导的过程。在OLDA的推断过程中,通过来存储先前时间区间读入的文档的分布信息,然后根据读入的新主题,更新中的元素值,达到动态更新的目的。
3.3.新主题的发现与追踪
在主题建模的过程中,主题被建模为单词空间上的概率向量,因此我们可以使用KL散度来描述主题与主题之间的相似性。因此我们就可以在数学上量化主题之间的差异。
对于当前时间区间的主题,无非有两种结果,一是判断其与先前主题为同一类主题,二是判断其为一新主题,并加入先前的主体集合。OLDA的主题发现的实现逻辑基本与此类似。这里定义了一个的矩阵,其每一项条目是在时间与之间主题k分布的KL散度(这里取的是对称的),然后定义一置信度,定义为百分位数。然后根据当前主题的KL散度,分别和当前的K个主题的分位数()以及历史所有的主题距离()对比,如果大于分位数,则标记该主题为出现,否则它就是旧的主题。
主题发现流程如下:
3.4.OLDA模型总览
直接放图,论文介绍如下
该讲的前文也讲的差不多了,下面简述一下过程,其整体是定义在所有的输入流上的。
首先初始化,然后对输入流做循环,当初次进入循环时,话题下词语分布为初始值,然后在后续循环过程中,采用对其进行更新。接着得到先验分布和输入流中的文档。
在此基础上,初始化并利用吉布斯采样近似得到然后利用更新完毕的主题分布与做并集,更新中的主题。然后重复以上的过程,直到全部的流结束。
然后将探测到的新的主题,复制给存储,其对应的就是截止到时间t的话题数目。