文章目录
- 前言
- 一、简介
- 二、语义数据搜索
- 1.Data web
- 2.三元组存储
- 3.存储和索引
- 三、混合搜索
- 1.数据模型
- 2.DB和IR的轻量级集成
- 3.生混合搜索系统 – 挑战
前言
一、简介
流程图
二、语义数据搜索
1.Data web
- 数据以结构化的形式发布和链接在一起
- 数据的含义和关系在形式化的模型中有详细说明
- 语义是基于标准化的逻辑语言,从而确保明确的形式化解析
- W3C联盟完成语言和协议的标准化
语义数据搜索具有以下难点:
- 可扩展性: 语义数据搜索对链接数据的有效利用要求基础架构能扩展和应用在大规模和不断增长的内链数据上。
- 异构性: 数据源的异构性、多数据源查询、合并多数据源的查询结果。
- 不确定性: 用户需求的表示不完整
2.三元组存储
基于IR: Sindice, FalconS…
单一数据结构和查询算法, 针对文本数据进行排序检索来优化
- 高度可压缩,可访问
- 排序是组成部分
- 不能处理简单的select, joins等操作
基于DB: Oracle的RDF扩展,DB2的SOR
各种索引和查询算法,以适应各种 对结构化数据的复杂查询
- 空间开销和访问的局限性
- 没有集成对检索结果的排序
- 能够完成复杂的selects, joins,… (SQL, SPARQL)
- 能应对高动态场景(许多插入/删除)
原生存储 (Native stores): Dataplore, YARS, RDF-3x
- 高度可压缩,可访问
- 类似IR的检索排序
- 类似DB的selects和joins
- 可在亚秒级时间内在单台机器上完成对TB级数据的查询
- 高动态(许多插入/删除操作)
- 没有事务,恢复等
3.存储和索引
重用IR索引来索引语义数据
IR索引基于以下概念
- 文档
- 字段(field),例如,标题,摘要,正文…
- 词语(terms)
- Posting list和Position list
不可能完全重建索引,需要增量索引,移动大量元素很耗时,可以基于块进行索引扩展。
但是块不能太大,移动多,但是块尺寸越小,搜索性能下降
排序原则
- 质量传播: 一个元素的分数可以看成是其质量(quality)的度量,质量传播即通过更新这个分数同时反应该元素的相邻元素的质量。
- 数量聚合:如果有更多的邻居,元素排名会更高。
结论
- 语义Web搜索有多种研究原型
- 有些应用IR技术以增强扩展性
- 复杂的查询也被诸如Hermes这样的搜索引擎支持,这些引擎结合基于倒排索引的数据访问,IR排序和复杂查询处理的数据库技术
- 可靠的答案,等价于 能扩展到数十亿级的三元组
- 数据质量依然是一个问题
- 对高质量映射进行增量的,pay-as-you-go方式的计算和维护
- 集成IR和DB排序以处理复杂查询
三、混合搜索
1.数据模型
2.DB和IR的轻量级集成
3.生混合搜索系统 – 挑战
- 可扩展的混合存储模型
- 内置 (in-built)混合join处理: Top-k混合join,模糊混合join
- 混合排序模型:IR排序, DB排序, IR和DB集成
结论
- 下一代的网络搜索是混合搜索,将内容单元提供给复杂的信息需求!
- 需要关注IR,DB和语义Web
- 一些初步的想法
- DB和IR的轻量级集成
*原生混合搜索模型:从头构建混合搜索,定制索引和存储,在匹配中紧密嵌入排序,定制查询评估
参考资料:王昊奋知识图谱教程