#知识图谱#

知识图谱综述 2022年4月9日

一、概念:

所有用图表示实体与实体见的关系(新的知识工程)
知识图谱涵盖很多领域:数据库、机器学习、自然语言处理、知识工程

知识工程:知识库和推理引擎
领域本体的构建:面向特定领域的形式化地对于共享概念体系的概念的描述
知识抽取:从海量数据中通过信息抽取方式获取知识
知识融合:通过对多个相关的知识图谱关联合并,形成一个整体

(一)知识本体:概念间的上下位关系以及相互定义的规则

(二)知识图谱数据模型:RDF(主语、谓词、宾语)

用于描述资源、属性和值之间的关系
* 主语(资源):是可以用URL标识的所有事物
* 属性:是资源的一个特定方面或特征
* 值:可以是另一个资源,也可以是字符串。

RDFS:在RDF引入模式层,定义类、属性、关系,就是区分判断一个RDF中的类与类、值与值之间的关系,判定同类的上下位关系。(这里的类指是类还是属性还是关系)

OWL:声明类间互斥关系、属性传递性等复杂语义。

(三)知识抽取:从海量的文本数据中通过信息抽取的方式获取知识,方法根据所处理的数据源不同而不同。

数据源:结构化(关系数据库)、半结构化(普通表格,维基百科现实的信息框)、文本数据。

(四)知识融合:知识图谱融合关联

需要计算实体相似度

(五)知识图谱与自然语言处理

自然语言处理在知识图谱的运用:信息抽取、语义解析
* 信息抽取:识别文本中实体以及关系。
* 语义解析:自然语言转化为知识图谱的查询语言。

1、信息抽取

  • 实体识别:基于规则的实体识别方法、基于机器学习的实体识别方法。 * 基于规则:如…公司,表明是公司类,是实体。 * 基于机器学习:对一句话进行标号(B表示实体名开始,I表示实体名内跟在实体名开始B之后的,O表示不属于任何实体)
  • 关系抽取:基于模版、基于机器学习
  • 事件抽取:模版、机器学习

2、语义解析:传统搜索(信息检索式)、语义搜索

  • 传统搜索:搜索包含关键词的实体,然后进行排序打分。
  • 语义搜索:转化为知识图谱可执行的查询语句。

(六)知识图谱与数据管理

知识图谱从本质上说是多关系图

  • 关系型数据库:用连接外键操作表示关系。
  • 图数据库:用图表示关系(结点、线)。
  • 原生图(直接存储三元组):将SPARQL转化为子图匹配算法。
  • 属性图(结点表示实体,跟了某些类型与属性值):主要描述实体间的关系,属性简化存储,或另外用键值对存储。
  • 分布式知识图谱存储:云平台、数据划分、联邦

(七)知识图谱与机器学习

知识表示学习:因为基于网络形式的知识表示存在数据稀疏问题和计算效率问题,所以知识表示学习主要是面向知识图谱中的实体和关系进行表示学习,使用建模方法将实体和向量表示在低维稠密的向量空间中,然后计算推理。

如知识图谱补全、相似度计算、关系抽取、自动问答、实体链指。

二、人工智能

符号主义(人工智能思路)认知过程就是符号表示上的一种运算。

连接主义(人工智能思路):智能活动是由大量的单元通过复杂的连接并行运算的结果。(深度学习、深度神经网络)

计算智能(人工智能包含的智能):快速计算、记忆存储。

感知智能:视觉、听觉、触觉的感知能力。(图像识别,语音识别等)

认知智能:能理解、会思考(理解、推理、解释)

(一)人工智能与知识图谱的关系

知识图谱与连接主义相联系

(二)知识图谱与大数据

知识图谱是面向关联分析的大数据模型

三、知识图谱构建流程

  • 模型设计
  • 数据采集
  • 知识提取
  • 知识融合
  • 知识管理