作者 | 陈大鑫
就在昨天刚结束的KDD Cup 2021 和OGB 官方联合举办的第一届图神经网络竞赛OGB Large-Scale Challenge中,来自微软亚洲研究院(MSRA)和大连理工的团队力压DeepMind、百度等队伍,夺得图预测任务赛道第一名。
各位看官,您猜怎么着?
AI 科技评论发现在这场号称“地表最强图神经网络”之争的国际权威竞赛中,获得第一名的模型不是图神经网络模型,反而是 Transformer 模型?
兜兜转转又是你,Transformer 你是要上天吗?之前你从NLP强势跨界到CV,这次又是在图神经网络拿了个冠军,你是什么都能参与一脚吗?国足要是有你这精神该多好啊!
这究竟是肿么一回事呢?
我们先从这次KDD Cup 2021 和OGB 官方联合举办的大赛说起。
其中KDD Cup大赛大家都很熟悉了,它是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事,从1997年开始,每年举办一次,是目前数据挖掘领域最具影响力的赛事。该比赛同时面向企业界和学术界,云集了世界数据挖掘界的顶尖专家、学者。
而今年,KDD Cup与OGB (Open Graph Benchmark)团队联合举办了第一届OGB-LSC比赛,提供来自真实世界的超大规模图数据。
在比赛的三个赛道中,图预测任务最受人瞩目(另外两个赛道为节点预测和关系预测):本次图预测任务发布了有史以来最大的有标注图数据集PCQM4M-LSC, 其中包含超过3,800,000个有标注分子图 (作为对比,ImageNet挑战赛包含1,000,000张标注图片,而在此之前最大的有标注图数据集大小不过约450,000个有标注分子图)。
另外根据本次大赛承办方,斯坦福大学Jure Leskovec教授回应,本次大赛总共有全球 500 多个顶尖高校和实验室队伍参赛,因此,无论是从参赛规模还是赛题难度上来讲,本届OGB-LSC竞赛都堪称为图神经网络领域的第一届「ImageNet」挑战赛。
赛题介绍
本次图预测竞赛的任务是对给定的2D结构分子图,预测由 DFT 计算的分子性质,如 HOMO-LUMO 能带隙。DFT (density functional theory, 密度泛函理论)基于量子物理力场,可以精确地预测多种分子性质。
然而,DFT的计算开销过于巨大,往往一个小分子的计算便需要耗费几个小时。因此,使用快速而准确的机器学习模型来近似DFT是非常热门的研究方向,并且有广泛的应用,如药物发现、材料发现等。
在此次比赛中,与其他队伍基于图神经网络的解决方案不同,来自MSRA机器学习组的研究员和实习生们直接使用 Transformer 模型对分子图数据进行处理,并力压DeepMind、百度、阿里巴巴蚂蚁金服等强劲对手,取得第一名的佳绩。
以下是该赛道榜单排名:
Transformer模型最早在NLP任务中被使用,并且逐渐在Speech、CV等任务中成为主流。然而,在图学习的领域各项任务的排行榜上,依然是传统图神经网络占据着主流。
但是谁又规定一定得是图神经网络才能做图学习呢?
所以说有意思的来了,在大连理工大学,普林斯顿大学,北京大学及微软亚洲研究院最新的论文《Do Transformers Really Perform Bad for Graph Representation?》中,研究人员们证明了Transformer实际上是表达能力更强的图神经网络,并且主流的图神经网络模型(GCN, GIN, GraphSage)可以看作是Transformer的特例!
论文地址:https://arxiv.org/abs/2106.05234
然而,过往将Transformer模型用到图结构数据的工作,表现并不尽人意,公认的图预测任务排行榜上依旧被传统GNN的变种们霸占着。
例如,此前最大的有标注图预测数据集OGBG-MolPCBA任务要求给定化学分子结构预测其60余种性质。在OGBG-MolPCBA的排行榜上并没有Transformer的身影。
此前最好的结果来自于GINE,在测试集上的AP指标为29.79%,而MSRA的研究人员和实习生们将Transformer模型应用到此数据集后,得到了31.39%的AP准确率。同时本次工作的研究人员们也在其他多个图预测排行榜中(OGB-LSC, OGB, Benchmarking-GNN)取得了最优成绩。
那么将Transfomer成功应用于图数据的关键难点在哪里呢?
作者们发现关键问题在于如何补回Transformer模型的自注意力层丢失掉的图结构信息!不同于序列数据(NLP, Speech)或网格数据(CV),图的结构信息是图数据特有的属性,且对图的性质预测起着重要的作用。
基于此,研究人员们在图预测任务上提出了Graphormer模型 —— 一个标准的Transformer模型,并且带有三种结构信息编码(中心性编码Centrality Encoding、空间编码Spatial Encoding以及边编码Edge Encoding),帮助Graphormer模型编码图数据的结构信息。
具体来讲,将Transformer模型应用到图数据时,其最主要的运算集中在自注意力层计算节点特征之间的相关性作为注意力机制的权重。然而对于图数据来说,衡量节点之间相关性的因素并不仅仅取决于节点特征,还包括了节点自身在图结构中的重要性(如社交网络中的名人节点),节点之间的空间关系(如六度空间理论)以及节点之间连边的特征(如边的距离、边的流量等)。
因此,MSRA的研究人员们在Graphormer模型中为以上几种信息设计了简洁而高效的编码来表示图数据的结构信息,并在自注意力层计算相关权重时引入三种结构编码,由此成功的将Transformer结构应用到了图数据上。