“知识图谱和图分析与可视化”这个题目看起来比较大,我尝试基于本人的一些图数据可视化与分析经验,对知识图谱和图分析与可视化之间的关系进行简单梳理,并分享一些以知识图谱为代表的图数据与图可视化、图分析结合进行数据洞察的一些经验。
当一些朋友看到节点以及边构成的可视化图时,还在疑问这个是否就是“知识图谱”?答案是否定的。如下图中节点与边构成的可视化网络图,在有的领域与场景下会被称作“知识地图”(教育领域也有个知识可视化研究方向,里面就有提到这个),更多的时候这个图可以被看做图数据的一种可视化展示形式。而知识图谱是数据层面的概念,从某种程度上看就是一种结构化数据。
我先尝试分别描述图分析与可视化,知识图谱的一些特点:
- 图是相互关联的事物及其关系的一种结构化表示。
- 图分析能够解释复杂的关系,从数据中获得高度独特而有价值的见解。
- 图的可视化是此过程的核心。以可视化的方式看到关系对于理解关系十分关键。
例如最为常见的社交网络,每个节点是一个账户,我们可以定义账号之间的关注关系或者其他关系为边,由这个规则就可以构成一种社交网络。或者我们定义节点为VC,VC之间有合作投资,就形成了边,由这个规则就可以构成一种投资机构合作网络。
我们可以利用图分析的算法对其进行分析与挖掘,不管是进行社群发现,还是节点重要度排序,都可以帮助我们产生新的洞见。在这个过程中,对于网络的可视化会扮演一个重要的角色。
- 知识图谱(以及事理图谱)以结构化的形式描述客观世界中概念、实体、事件、属性及其关系,将信息表达成更接近人类认知世界并且可以被计算机处理的形式,提供了一种更好地组织、管理和理解海量信息的能力。
- 知识图谱的数据结构主要以图的形式进行体现,因此在对知识图谱数据进行分析的时候与图分析进行结合是一种自然而然的选择。
知识图谱数据更多的会以图数据库进行存储,这也从侧面说明其图结构的数据本质。而同时,复杂性科学中存在一种重要的研究手段,就是复杂网络,可以把现实世界中的各种问题与研究对象抽象成为节点与边,构建为图的结构,再利用复杂网络的各种方法进行分析与研究。刚好,图数据(知识图谱)与对应的分析方法(图分析与可视化)可以天然进行结合。
那知识图谱和图分析与可视化到底是什么关系?
知识图谱是图分析与可视化所基于的图数据中的重要组成部分。
知识图谱是一种数据形式,基于这种结构化的数据可以支持从数据分析、智能问答、反欺诈等一系列智能应用。
而图分析与可视化是一种基于复杂网络的可视化形式与分析手段,其数据基础是各种图数据,知识图谱只是图数据中的一种。除了知识图谱数据,还可以从其他角度得到不同的图数据。各对象间的信息、资源、资金或人员流动与传播的数据,例如如下图左侧的AI大牛流动网络,是根据AI大牛在公司之间的流动方向构建的有向图;
还可以根据各个对象间的特征进行相似度计算,从而生成对象间的相似度网络,并进行展示与分析,例如下图中间的区块链相关文献相似度图谱,是根据文献摘要间的文本相似度构建相似度网络,进而利用图挖掘算法进行分析。
我们可以基于以上不同规则定义,通过不同手段得到的图数据,进行展示与分析。例如:
图左边是一个人才流动网络,中间是一个区块链领域的文献文本相似度网络,右边是一个VC合作网络。不同类型的数据,通过不同的规则,都构建成为图数据,并且以图可视化的形式表现出来,支持分析。
可以具体来看:
人才流动网络中节点定义为公司,当公司与公司之间存在人才流动的时候,就将不同的公司进行连接,以这个规则构建了企业间人才流动网络,来说明领域企业间的人才与资源流动趋势。基于AI领域主要大牛跳槽信息构建的人工智能领域主要人才流动网络如下。
文献相似网络中每个节点代表一篇文献(文本),利用文献摘要计算文献间的文本相似度,当相似度大于一定阈值,将两篇文献连接起来。这个网络可以帮助我们从相对宏观的数据,发现文献之间研究话题的相似性。
按照这个规则,以区块链领域文献为基础,可以构建如下文本相似度网络。对网络进行聚类,就可以发现不同的细分研究领域,并可以配合不同的角度进行“文献综述”。
细分研究领域:
细分研究领域时间分布:
主要研究国家与主要研究领域:
主要研究机构与主要研究领域:
VC合作图谱中每个节点代表一家投资机构,如果不同的机构投资了同一家创业公司,那么我们定义这些机构间产生了合作关系,就把这些机构通过边连接起来。这个网络代表了投资机构间的信息、资源与资金互通基本情况,可以从这个角度对投资领域的各个机构进行宏观的群体划分。
按照这个规则,以2017年的部分一级市场数据,可以构建如下VC合作网络。并且可以从中找到联系紧密的一些投资机构社群以及重要的投资机构节点。
进行图可视化与分析的时候,需要注意的问题:
布局算法
在进行图可视化分析的时候,针对组建好的网络,如何将节点位置进行合适的排列,从而能从视觉上可以最有效的获取网络的特征,这是图可视化分析的基础。
有些网络是放射性的,可以采取胡一凡布局;有些网络是具有层次特征的,就可以采取层次布局;更多时候,节点之间可以划分出较为明显的社群,可以采取类似力引导布局。
说到这点就需要提到图可视化的局限性,目前局限于硬件性能以及布局算法,在性能稍好的个人PC上能够流畅展示的网络节点规模也就10万级别(个人经验)。如果我们的真实分析应用用到的图数据节点数超过这个量级,那么我们必须对图数据采取预先的计算、筛选或者在可视化的时候采取分层下钻的操作。所以其实从另外一个角度看,可视化图分析是人机结合进行洞察与模式发现的过程,之后,当我们确切的知道需要对特定的图数据做哪些挖掘的时候,就可以一定程度抛开可视化图分析,单纯进行图计算,进行数据发现。
除了对网络进行布局,从视觉直接捕捉网络特征,还需要通过网络结构本身的特征、节点与边蕴含的信息再配合图交互探索进行更进一步的分析。
网络结构本身的特征挖掘:
对于复杂网络来说,网络结构本身代表了对数据以及关系的抽象,通过对其进行挖掘与模式发现,可以帮助我们从数据内部结构的特征来得到洞察,是数量统计挖掘之外的重要数据洞察方法。特别是对于类似意见领袖、社群、传播等数据分析,复杂网络挖掘的方法是必须的基础(当然前提是有数据支持)。
具体的可以在不同的网络类型上采取各种社群发现(聚类)算法、节点重要性程度算法(PageRank等)、传播模式发现等方法进行数据的分析挖掘。
节点与边蕴含的信息挖掘:
网络结构本身是抽象的,具有通用性。但是我们也需要配合不同网络中节点与边所蕴含甚至关联的数据进行更进一步的针对性分析。
例如在社交关注网络中,账号的发帖回帖内容,账号的点赞与关注量;在文本相似度网络中,文本的关键词,发布时间,作者等;在人才流动网络中,具体的流动人员,时间等信息。这些都是进行针对性分析必须考虑的因素。
以上提到的对于网络结构本身的特征挖掘、节点与边蕴含的信息挖掘甚至因为网络规模过大而必须进行的筛选与下钻,这些都最好基于图交互探索提供给用户。这样分析师才可以与所要分析的数据、以及分析方法进行快速交互迭代,从而对数据进行洞察。
到这里,不知道大家是否注意到一点,我举的例子中,构成网络的节点类型都是同质的,实际上这种网络是同质网络。在我的经验中我分析过网络节点类型最多的也就是个二部图,例如投资机构-创业公司组成的投融资网络。目前在网络结构挖掘,甚至网络布局算法方面对于更多节点类型的网络也就是异质网络的支持并不好。所以至少目前的分析更多的是对同质网络的分析与挖掘,即使对于由各种节点类型构成的知识图谱,想要对其进行图分析与可视化,在很多时候还是要取一个“切片”进行分析。目前学术界有在对异质网络进行更多分析与探索,希望从具有更丰富信息的异质网络中得到更多信息(对异质网络感兴趣的朋友可以关注北邮石川老师的研究)。
以上就是我的经验分享,基本总结了我这4年对于知识图谱与图分析与可视化的一些认识。
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。