为了使计算机能够真正处理文本特征,必须对文本特征进行特征加权,将文本表示成计算机可以处理的数学向量。

(1)布尔模型

布尔模型是基于特征项的严格匹配模型,它可以看作是向量模型的一种特例,根据特征是否在文档中出现,特征的权值只能取或。首先,建立一个二值变量的集合,这些变量对应于文本的特征项。文本用这些特征变量来表示,如果出现相应的特征项,则特征变量取否则,特征变量取。查询由特征项和逻辑运算符“and”、“or”和“not”组成。文本与查询的匹配规则遵循布尔运算的法则。
    布尔模型在二十世纪六、七十年代得到了较大的发展,出现了许多基于布尔模型的商用检索系统,如,等。其主要优点是速度快,易于表达一定程度的结构化信息,如同义关系电脑微机机算机或词组文本过滤系统。其缺点是把布尔模型作为文本的表示很不精确,不能反映特征项对于文本的重要性,缺乏定量的分析过于严格,缺乏灵活性,更谈不上模糊匹配,这往往忽略了许多满足用户需求的文本。

(2) 向量空间模型(VSM)

在向量空间模型中,文档被看作一系列无序词条的集合,对每个词条

文本数据挖掘与python应用课后答案清华大学出版社 文本数据挖掘论文选题_图空间模型

文本数据挖掘与python应用课后答案清华大学出版社 文本数据挖掘论文选题_向量空间模型_02

向量空间模型的缺点在于项之间线性无关的假设。在自然语言中,词或短语之间存在着十分密切的联系,即存在“斜交”想象,很难满足假定条件,因此对计算结果的可靠性造成一定的影响。此外,将复杂的语义关系归结为简单的向量结构,丢失了许多有价值的线索。因此,有许多改进的技术,以获取深层潜藏的语义结构。

(3)概率模型

文本数据挖掘与python应用课后答案清华大学出版社 文本数据挖掘论文选题_图空间模型_03

文本数据挖掘与python应用课后答案清华大学出版社 文本数据挖掘论文选题_概率模型_04

更好的理解概率模型:

概率排队原则的基本思想是:当文本按照概率降序的原则进行排列时,可以获得最好的检索性能。概率模型是一种基于概率排队原理的文本表示模型。对于用户给定的查询,概率模型计算所有文档的概率,并按照文档概率的大小对文本进行降序排列。概率模型是利用词条与词条以及词条与文档之间的概念相关性来进行信息检索的文本表示模型,它克服了 VSM 模型和布尔模型忽略词条相关性的缺点。

文本数据挖掘与python应用课后答案清华大学出版社 文本数据挖掘论文选题_向量空间模型_05

(4)图空间模型
  为了进一步减小语义信息方面的损失,基于图的文本表示模型逐渐得到重视,例如后缀树模型和频繁词集超图模型等,用图的形式反映特征间的相邻关系和次序关系,还包括使用二维视图方法,将特征的信息用二维平面的局部能量和全局能量表示。一般该模型需要进行复杂的图处理,影响了后续机器学习的速度。