停用词:

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。

这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具,甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。

一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像The Who、The The或Take That等复合名词时,停用词的使用就会导致问题。

另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。

Hans Peter Luhn, 作为信息检索的先驱者之一,他创造了这个短语并在他的研究中应用这个概念,为信息检索工作做出了贡献。

 

同义词:

同义词(synonym)或者更学术性的称呼同义异形是世界上各种语言都存在的一种现象。它指的是表达的意义相同或相近,但是表达形式不同的词汇。

不仅词汇有同义现象,不同语法结构的句子也可以表示同一个意义。例如:

  • 这本书非常有趣。
  • 这是一本非常有趣的书。

同义词之间的差别主要有感情色彩、理性意义、语法特点、各地习惯的不同。

理性意义的差别又分别体现为范围、性状、程度等方面的不同。

感情色彩方面:“执着”与“固执”、“果断”与“武断”、“聪明”与“狡猾”

程度差别:“丰满”与“肥胖肥胖、“优秀”与“良好”、“少量”与“微量”