全文搜索是什么
从全文数据中进行检索就叫全文检索(全文搜索)。是基于文本的搜索。
l结构化数据:指具有“固定格式”或“有限长度”的数据,如数据库,元数据等;
l非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等;
l半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
全文数据搜索的方式
1.顺序扫描法(Serial Scanning)
对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。比如Window自带的搜索,在数据库中扫描不带索引文本字段等。
2.全文检索
非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快(由于结构化数据有一定的结构可以采取一定的搜索算法加快速度),那么把我们的非结构化数据想办法弄得有一定结构不就行了吗?关系数据库中存储的都是结构化数据,因此很检索都比较快。
从非结构化数据中提取出的然后重新组织的信息,我们称之索引。即为文本数据建立类似字典目录,从而提高检索速度。
2.1全文检索的特点
1.相关度最高的排在最前面,官网中相关的网页排在最前面;
2.对摘要进行了截取;
3.关键词的高亮。
4.只关注文本,不考虑语义。
2.2.使用场景
1.替换数据库模糊查询,提高查询速度和准确
2全文索引是搜索引擎的基础
3只对“指定领域”的网站进行索引与搜索(既垂直搜索)
4要在word、pdf等各种各样的数据格式中检索内容
5其它场合:比如搜狐拼音输入法、Google输入法等
全文检索应用架构
全文检索引擎就是一个搜索引擎,要进行搜索必须有一个数据源。在①处可以看到,我们的数据源可以来自下面四个地方:
l文件系统:我们的操作系统搜索是通过顺序搜索速度相当的慢,在这也可以通过全文检索来提高搜索速度;
l数据库:数据库对于文本字段的内容不能建立索引,在以后应用中也会在数据库基础上集成全文检索来提高检索速度;
l互联网:目前网络中的数据量已经达到百亿单位,在搜索时能够为所有的网页建立目录也是可以提高搜索速度。
l其他输入:可以直接对直接输入的内容建立索引和储存。
有了数据,目的就是为了给用户提供搜索服务。在②处用户界面主要有两个功能:
l获取用户输入的搜索关键字,发送请求到后台进行处理;
l响应查询,展示搜索结果。
目前我们使用的搜索引擎数据源来自互联网的其他公司,自己只提供了一个非常简单的搜索界面,感觉就是一个普通的JSP,没有什么技术含量。其实不同搜索引擎的技术主要体现在③处,我们可以看到对于索引库操作主要分为两步:
l对外部数据的索引建立,必要时索引库也可以储存数据;
l响应用户的搜索请求,检索结果,进行相关排序后返回到前台。
| |
|
这里再分别简述下两个过程:
索引的创建:首先需要找到数据库源,即待索引的文件;然后进行词法分析,即分词,去停词,去标点符号,大写变小写等,语言处理主要是针对英文,时态的转变等;这些基础处理完成后就可以按一定顺序合并相同的词后生成倒排词链表;把需要储存的文件内容放入索引库中储存同时为文档生成一个编号;最后把倒排词链表和文档的编号建立关联就OK。
索引的搜索:在获取到用户的查询语句后,同样也需要进行词法分析,语言处理,在全文检索中匹配的最小单位是词,索引索引的建立和搜索时必须使用相同的词法分析器进行分词;语法分析主要是确定符合各个词的结果间采取怎样的取舍规则,交集或并集等;然后经过步骤(d),在索引储存库中获取到每个词所对应的结果集;在搜索索引节点处按照分析规则进行结果的筛选处理;最后把结果进行相关性排序然
全文索引核心
索引创建
将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
那么索引里面究竟存的什么,以及如何创建索引呢?在这通过下面的例子来解答这个问题。
首先构造三个不同的句子,有长有短:
在①处分别为3个句子加上编号,然后进行分词,把被一个单词分解出来与编号对应放在②处;在搜索的过程总,对于搜索的过程中大写和小写指的都是同一个单词,在这就没有区分的必要,按规则统一变为小写放在③处;要加快搜索速度,就必须保证这些单词的排列时有一定规则,这里按照字母顺序排列后放在④处;最后再简化索引,合并相同的单词,就得到如下结果:
通常在数据库中我们都是根据文档找到内容,而这里是通过词,能够快速找到包含他的文档,这就是文档倒排链表。
索引搜索
就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
比如我们要搜索java world两个关键词,符合java的有1,2两个文档,符合world的有1,3两个文档,在搜索引擎中直接这样排列两个词他们之间是OR的关系,出现其中一个都可以被找到,所以这里3个都会出来。全文检索中是有相关性排序的,那么结果在是怎么排列的呢?hello java world中包含两个关键字排在第一,另两个都包含一个关键字,得到结果,hello lucene world排在第二,java在最长的句子中占的权重最低排在结果集的第三。从这里可以看出相关度排序还是有一定规则的。