信息检索(Information Retrieval)相关概念
0 引言
好久没更新了,期末那段时间在突击期末考试,然后寒假又懒惰了一些,疏于学习。这篇算是新年开篇了,在这里笔者先来个迟到的新年祝福,祝大家2021一帆风顺、学业有成、事业有成!
开篇就不整技术性太强的文章了,寒假开始接触一些自然语言处理(NLP)的技术了,所以简单了解了一下相关概念,今天就给大家介绍。
1 检索
搜索结果的排序是搜索引擎最核心的部分,极大程度上决定了搜索引擎的质量好坏以及用户接受与否。搜索引擎最关键的两个因素是用户查询与网页内容的相关性、网页链接情况。这节来探讨一下——给定用户查询,如何从内容相关性角度对网页进行排序。判断网页内容是否与用户查询相关,依赖于搜索引擎所采用的检索模型,我也会在后面的博客中介绍几个常用的检索模型: 布尔模型、向量空间模型、概率模型、语言模型以及机器学习排序模型。
当用户发起查询后,搜索引擎会根据用户查询判断哪些网页文档与用户需求相关,并按照相关程度将网页排序输出,所以相关度计算是将用户查询和文档内容进行匹配的过程,而检索模型就是用来计算内容相关度的理论基础即检索模型就是为网页排序提供依据的!
什么样的检索模型是个Good model呢?当用户发出查询后,我们首先把要搜索的文档分为两个维度和四个象限:两个维度——“是否相关”、“是否包含关键词”,四个象限——“包含关键词且相关”、“不包含关键词但相关”、“包含关键词但不相关”、“不包含关键词且不相关”。一个好的检索模型应该尽量提升一二象限文档的排名,抑制三四象限文档的排名。
目前大多数检索模型考虑的对象大多集中于出现关键词的文档,并且检索模型理论研究都存在理想化的隐含假设,即假设用户的需求可以通过查询被非常清晰明确地表达,但这往往与真实场景相差甚远,在真实场景中,很有可能出现语义分歧的现象,即同一个词,用户们想表达的意思也不同。但是对于这种情况,检索模型也无能为力。所以我们在使用检索模型的时候,往往是假设在理想状态下的即:用户查询能够清晰明确地表达用于需求的情况下,如何找出内容相关的文档。但是如果用户查询无法精确地表达用户需求,那么现阶段再优秀的检索模型也无济于事,所以后期研究重点会转向填补用户真实需求与查询词之间的鸿沟。接下来,本文将较为详细地介绍几个常用的检索模型!
2 相关概念
- 信息检索(Information Retrieval,简称IR): 从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。
- 非结构化数据(unstructured data): 没有清晰和明显语义结构的数据。有时也把网页这种具有格式标记的数据称为“半结构化数据(semistructured data)”。
- 查询(Query): 用户提交给系统以代表其信息需求的文本。
- 信息需求(information need): 用户想查找的信息主题。
- 文档(document): 检索系统的检索对象,代表以文本形式存在的存储对象,比如Word,PDF,html,XML等不同格式的文件都可以称之为文档,再比如一封邮件,一条短信,一条微博也可以称之为文档。一般搜索引擎的处理对象是互联网网页。
- 文档集(collection): 所有文档的集合,有时也称语料库(corpus)。比如海量的互联网网页或者说大量的电子邮件都是文档集合的具体例子。
- 文档编号(Document ID):在搜索引擎内部,会将文档集合内每个文档赋予一个唯一的内部编号,以此编号来作为这个文档的唯一标识,这样方便内部处理,每个文档的内部编号即称之为“文档编号”,后文有时会用DocID来便捷地代表文档编号。
- 单词编号(Word ID):与文档编号类似,搜索引擎内部以唯一的编号来表征某个单词,单词编号可以作为某个单词的唯一表征。
- 词条化(tokenization): 将文档转换成一个个词条(token)的列表。
信息检索可以按照其所处理数据的规模进行区分:
级别 | 规模大小 | 例子 |
---|---|---|
第一级别 | 大规模 | Web搜索(web search) |
第二级别 | 小规模 | 苹果的MacOS X操作系统中的Spotlight搜索 |
第三级别 | 介于第一种大规模和第二种小规模之间 | 公司内部文档、专利库、生物医学文献的搜索 |
信息检索就介绍到这里,再聊聊题外话吧。
因为种种因素,我开始创业了。其实,我之前没有想过创业这件事,国为我知道自己有几斤几两,我总结自己是“守成有余,创新不足”,我清楚自己不能当个优秀的leader ,但如果给我个伍务或者带几个人做做事,我自认为还是有能力的。但是,机会来了,就不能让它溜走,年轻不就得拼一拼,所心我也把自己赶鸭子上架,大胆尝试了一下,无论最后结果如何,我觉得至少拼过一把(可能听起来有点中二)。