写在篇首
图神经网络(GNN)是在各种图数据应用上强有力的深度学习算法。其基本学习范式可以归纳为:在训练节点或图上训练图神经网络参数,然后利用训练好的图神经网络预测节点或者图的标签。保证这种学习范式有效的一个基本假设是IID假设,即训练数据和测试数据同分布。
然而,由于现实世界的复杂性和数据来源的不可控性,测试数据集在实际中难以保证与训练数据的同分布这一要求。这就从根本上违背了IID假设。我们据此试图理解两个问题:如果测试节点(图)与训练集的分布的确不同,GNN的泛化效果会怎样呢?假如真的泛化性受到很大制约,又能如何突破这一限制呢?
通过分析可以看出,泛化性能受到限制是由于GNN本质上刻画的还是图数据之间的相关性,而相关性显然在Non-IID场景下具有较弱泛化性的。因此,是时候反思要引入因果性的约束了。本文介绍两篇工作,分别从节点分类和图分类两个任务出发,旨在通过引入因果约束的方法到GNN模型,以找到对标签有稳定因果影响的局部邻居结构(节点分类)和子图(图分类)。
论文标题:
如何去除节点选择偏差对于GNN的影响?--在不可知标签选择偏差下的去偏差图神经网络
论文链接:
https://arxiv.org/pdf/2201.07708.pdf (TNNLS 2022)
大多数用于节点分类的GNN方法没有考虑数据中的选择偏差,即训练和测试数据非同分布。同时在现实中,我们很难在训练时获得测试数据,从而导致测试数据变的不可知。在有选择偏差的节点上训练GNN会导致明显的参数估计偏差,从而严重的影响在测试节点上的泛化性能。
在本文中,我们首先进行了实验性研究,验证了数据选择偏差会严重的影响到模型的泛化性能,并且从理论上证明了数据选择偏差将会导致GNN模型参数估计上的偏差。为了消除GNN估计的偏差,我们提出了具有差分去相关正则项的去偏差图神经网络。在多个有偏差数据集上数据集上验证了该方法可以有效的去除数据选择偏差所带来的不良影响。
引言
目前的GNN大多采用通过聚合节点邻居特征的方法学习节点表示,并且这样的信息传递方法通过端到端的方式用节点标签作为监督信号进行学习。在训练过程中,GNN可以有效的学习节点局部邻居结构和标签之间的相关关系,从而GNN可以利用这种相关关系来学习新节点的embedding并且推测其标签。一个GNN可以做出精准预测的基本要求是标记的训练节点和测试节点同分布,也就是说,标记的训练节点和测试节点服从相同的模式,从而当前图和标签之间的相关性可以被很好的泛化到新节点上。然而,在现实中有如下两个不可避免的问题。
1. 由于很难控制数据收集过程无偏,收集到的训练图和标签之间不可避免的存在偏差。在这样的一个图上进行训练将会导致有偏差的相关性。以一个科学家合作网络为例,如果在训练图中大多数的以“ML”为标签的科学家和以“CV”为标签的科学家合作,目前的GNN可能会学习到和CV科学家合作的科学家的标签是ML的虚假相关性。如果一个新的ML科学家和ML或者其他领域的科学家合作比较多,很大程度上可能会被错误的分类。
2. 测试节点通常在训练阶段是无法获得的,这意味着新节点的分布是不可知的。一旦测试分布和训练分布存在不一致,目前的GNN都会表现出比较差的效果。
为了提高GNN在这类有偏差数据上的泛化性能,我们提出了一个去偏差图神经网络框架来提高图学习的稳定性,该方法联合优化了一个差分去相关正则化器和一个加权的GNN模型。具体而言,差分去相关正则化器可以学习一套样本权重,以消除稳定的和不稳定变量之间的虚假相关。基于对于去相关正则化器因果视角下的分析,我们从理论上证明了变量的权重可以通过回归系数来区分。
此外,为了更好的结合去相关正则化器和已有的GNN结构,理论结果表示把正则化器加在GNN的倒数第二层上会有较好的适用性。然后,学习到的去相关正则化器被用来加权GNN的损失,从而GNN的参数估计可以无偏。我们在有两种标签选择偏差的真实数据集上验证了我们方法的有效性和适用性。
标签选择偏差对于GNN的影响
我们首先进行了一项实验性研究来探究目前的GNN对于标签选择偏差引起的分布偏移的敏感性。我们选择的训练节点其具有不同程度的不同标签邻居比例,通过这个比例我们控制节点的偏差程度,以生成不同偏差度的数据。下图是GCN和GAT在具有不同偏差程度的cora,citeseer和pubmed数据集上的实验结果。从实验结果可以看出,随着偏差程度的增大,GCN和GAT的效果都明显的下降,证明了选择偏差可以很大程度上的影响模型效果。
进一步地,我们在理论上,也对数据选择偏差对于模型参数估计的影响进行了分析。我们首先假设了节点标签只由学习到的embedding的稳定部分(比如,对于我们所研究的同质网络,就是相同标签的邻居)决定:
基于如上假设,我们利用stable learning技术[1] 推导出了模型参数受稳定变量和不稳定变量 之间的虚假相关的影响:
其中, 和 分别表示GNN的参数和数据生成过程的参数。他们的差表示模型参数的估计偏差,可以看出主要是由 和 引起的,即 和 之间的虚假相关。
模型
为了减小模型估计偏差,根据[1], 我们需要去除embedding的各个维度之间的相关性,其提出了一种去相关的正则化项(Variable Decorrelation,VD):
对于该正则化项如果我们想让,我们需要样本量足够大,但是对于GNN的半监督的设置下,该条件通常很难满足。因此,我们考虑如何更有效的去除对模型损害最大的虚假相关性。基于该目的,我们首先以因果视角从新审视了VD正则化项,把其与confounder balancing 技术建立起了联系。受启发于confounder balancing技术对于不同confounder加权技术思想的启发[2],我们可以证明出VD正则化器可以被GNN分类器的回归系数所加权:
从而提出了我们的差分去相关正则化器(Differetiated Variable Decorrelation,VD):
进一步的为了使得正则化器可以适用于多种GNN模型,我们基于如下理论证明了正则化器加在GNN的倒数第二层即有理论保证也容易实现。
正则化器学习到的节点样本权重重新调整了数据分布,从而使得调整后的数据分布无偏,用该权重对GNN损失加权,从而使得学习到GNN无偏:
模型的整体架构如下图所示。
实验结果
我们分别在标签选择偏差和小样本选择偏差(具有较少的训练样本)的四个数据上进行了实验。
节点分类
从实验结果可以看出(1)我们提出的方法GCN/GAT-VD/DVD取得了最好的效果,证明了我们提出框架的有效性。(2)对于偏差程度的更大的情况,我们的方法有更大的提升,证明了我们方法可以有效对抗数据选择偏差问题。(3)对于base model我们的方法都取得了提升,证明了我们提出的正则化器和框架的有效性。
样本权重分析和参数实验
我们通过实验证明了,学习到的样本权重可以有效降低embedding之间的相关性。同时,我们的方法对于参数选择也较为鲁棒。
模型训练时间
从实验结果可以看出我们的方法和GCN具有相同量级的时间复杂度。
参考文献
[1] K. Kuang, R. Xiong, P. Cui, S. Athey, and B. Li, “Stable prediction with model misspecification and agnostic distribution shift,” in AAAI, 2020.
[2] Kun Kuang, Peng Cui, Bo Li, Meng Jiang and Shiqiang Yang. Estimating Treatment Effect in the Wild via Differentiated Confounder Balancing. In SIGKDD , 2017.
在介绍完如何将因果约束引入到节点级别任务之后,我们进一步考虑如何将因果约束引入到GNN另一大类应用:图分类当中。与节点分类不同的是,图分类任务有以下特点:
1. 节点级别任务考虑的是节点和局部邻居作为一个基本单元,这些单元的训练和测试分布不同。而图分类以单张图作为一个基本单元,如何考虑以图级别为基本单元的Non-IID问题?
2. 对于节点级别任务,预测中心节点标签有较为稳定的局部子结构,那么,图级别任务什么样的子结构是对于标签预测较为稳定的?以及如何找到它?带着这些问题,我们来看第二篇关于图级别OOD泛化的工作。
论文标题:
如何去除图选择偏差对于GNN的影响?--图神经网络在分布外图上的泛化
论文链接:
https://arxiv.org/pdf/2111.10657.pdf
目前提出的图神经网络 (GNN) 方法没有考虑训练图和测试图之间的不可知偏差,从而导致GNN在分布外(OOD)图上的泛化性能变差。导致GNN方法泛化性能下降的根本原因是这些方法都是基于IID假设。在此条件下,GNN模型倾向于利用图数据中的虚假相关进行预测。但是,这样的虚假相关可能在未知的测试环境中改变,从而导致GNN的性能下降。因此,消除虚假相关的影响对于实现稳定的GNN模型至关重要。
为了实现此目的,在本文中,我们强调对于图级别任务虚假相关存在于子图级别单元,并且用因果视角来分析GNN模型性能下降的原因。基于因果视角的分析,我们提出了一个统一的因果表示框架用于稳定GNN模型,称之为StableGNN。这个框架的主要思想是首先利用一个可微分的图池化层提取图的高层语义特征,然后借助因果分析的区分能力来帮助模型摆脱虚假相关的影响。因此,GNN模型可以更加专注于有区分性的子结构和标签之间的真实相关性。我们在具有不同偏差程度的仿真数据和8个真实的OOD图数据上验证了我们方法的有效性。此外,可解释性实验也验证了StableGNN可以利用因果结构做预测。
引言
图神经网络 (GNNs) 是在各种图数据应用上强有力的深度学习算法。其中一种主要的应用是图级别的任务,比如分子图级别的预测,情境图分类,和社交网络图分类。目前GNN方法的基本学习范式是从训练图中学习GNN的参数然后将其用于预测未知的图数据。保证如此学习模式成功的最基本假设是IID假设,即训练和测试数据是从相同的数据分布中抽取出来的。
然而,在现实中这种假设由于真实据收集过程中的不可控性很难保证。因此测试数据可能会遭受未知的分布偏移,称为分布外偏移,这种偏移导致大多数GNN模型无法做出稳定的预测。如OGB数据所报告的,到数据采用OOD划分时,GNN将会遭受5.66%到20%的性能损失。
本质上说,对于一般的机器学习方法,当遭受分布偏移问题时,准确率下降的根本原因是不相关特征和类别标签之间的虚假相关导致的。这个虚假相关根本上是由不相关特征和相关特征的意外的相关性导致的。而对于本文研究的图级别任务,由于图的性质通常由子图单元决定 (比如,在分子图中,原子和化学键团表示其功能单元),所以我们定义一个子图单元可以是一个对于标签相关的或者不相关的特征单元。
如图1所示,以’‘房子’‘模体分类任务为例,其中图的标签表示一个图中是否有“房子”模体。GCN模型是在“房子”模体和“星星”模体高度相关的训练图上训练的。在这个数据上,“房子”模体和“星星”模体将会高度相关。这个意料之外的相关性将会导致“星星”模体的结构特征和“房子”标签的虚假相关。图1的第二列展示了用于GCN预测的最重要的子图可视化结果 (由GNNExplainer产生)。由结果可知,GNN倾向于利用星星模体做预测。然而当遭遇没有“星星”模体的图,或者其他模体(比如,"钻石"模体)和星星模体在一起时, GCN模型被证明容易产生错误的结果。
图1 "House"模体分类例子
为了去除虚假相关对于GNN模型泛化性的影响,我们提出了一个新颖的用于图的因果表示框架,称之为StableGNN,其结合了GNN模型灵活的表示学习和因果学习方法对于区分虚假相关能力的两方面优势。对于表示学习部分,我们提出了一个图高层语义学习模块,其利用了一个图池化层来映射相近的节点为簇,其中每一个簇为原始图中一个紧密连接的子图单元。
此外,我们理论证明了不同图的簇的语义含义可以通过一个有序的拼接操作实现匹配。给定了匹配的高层语义变量,我们用因果视角分析GNN的性能退化并且提出了一个新颖的因果变量区分正则化项通过学习一套样本权重来去除每一个高维变量对之间的相关性。这两个模块在我们的模型中联合训练。此外,如图1所示,StableGNN可以有效的排除不相关子图的影响(“星星”模体)并且利用真实的相关子图("房子"模体)做预测。
方法
所提出框架的基本想法是设计一个因果表示学习方法来抽取有意义的图高层语义变量然后估计他们对于图级别任务的真实因果效应。如图2所示,所提出的模型框架主要分为两个部分:图高层语义表示学习模块和因果变量区分模块。
图2 StableGNN的模型框架
图高层变量学习
高层变量池化 为了学习节点表示同时映射紧密连接的子图到几个簇中,我们采用DIffPool 层学习一个簇分配矩阵来实现这个目标。具体而言,由于GNN可以平滑节点表示同时使得表示更加具有区分性,给定输入邻接矩阵, 同时表示为, 和节点属性 ,我们首先使用一个embedding GNN模块来得到平滑的节点表示:
其中 是一个3层的GNN模块,GNN层可以是GCN,GraphSAGE或者其他的。然后我们构建了一个池化层基于这个平滑的特征表示。具体地,我们产生一层的节点表示如下:
402 Payment Required
由于在相同子图的节点可能会有相似的表示和邻居结构,GNN模型可以把具有相似特征和结构的节点映射到相同的表示上,因此我们把节点表示 和邻接矩阵 输入到一个池化GNN模块来产生第一层的的簇分配矩阵:
402 Payment Required
其中 和 表示第i个节点的簇分配向量, 同样是一个3层的GNN模块,其输出维度为预设的在层1的最大的簇个数,是一个参数,可以通过端到端的方法学习到。在得到分配矩阵 之后,我们可以知道每个节点在预设的簇上的分配概率。因此,新的节点的表示可以通过如下方法计算:
这个公式根据簇分配矩阵聚合了节点表示 ,产生了 个簇的表示特征。同样的,我们产生了一个粗化的邻接矩阵如下所示:
402 Payment Required
我们可以通过堆叠多个Diffpool层来实现层次化的聚类结构。
高层表示匹配 在堆叠L层图池化层之后,我们可以得到最高层的高层簇表示 。由于我们的目标是编码子图结构到图表示中并且 已经显示的编码每个紧密连接的子结构信息到 的行向量中,因此,我们提出使用 的表示矩阵来表示高层语义。然而,由于图数据的非欧特性,对于两个图 和 的第i个学习到的高层表示的 和 的语义含义可能会不同,比如, 可能代表苯环, 可能代表NO2团。为了匹配不同图之间学习到的高层语义表示我们提出通过高层矩阵的行索引来拼接高层变量:
并且我们堆叠在一个mini-batch中的m个图的高维表示得到embedding矩阵:
我们通过GNN层的置换不变性,证明了在经过DiffPool层之后,不同图之间对应的高层语义是匹配的:
因果变量区分正则化项
到目前为止变量学习部分学习的变量可能是虚假相关,在本节中,我们首先分析以因果视角分析导致GNN模型性能下降的原因,然后提出一个因果变量区分正则化器(CVD)。
以因果视角重视GNN
我们的目标是学习到一个分类器 基于相关的特征Z。为了达到这个目的,我们需要区分学习到的表示 哪个是属于稳定特征Z哪个是属于不稳定特征M。Z和M的主要区别是对Y有没有因果效应。对于一个图级别的分类任务,在学习到节点表示之后,他将会被送到一个分类器里来预测他的标签。这个预测过程可以表示为图3(a),其中 T 是处理变量,Y是输出预测值,X是混淆变量。路径 表示GNN 的目标是估计一个学习到的表示变量T到Y 的因果效应。同时其他变量将会被视为混淆变量X。
由于子图之间存在虚假相关,因此他们学习到的表示之间也存在虚假相关。因此,存在一个在X和T之间的路径。并且由于GNN同样也使用confounder做预测,所以存在一条路径 。因此,这两条路径形成一个X到T的后门路径(i.e., ),从而导致T和Y之间的虚假相关。这个虚假相关将会改变处理变量和标签的之间真实相关性,并且在测试的时候会改变。
在这种情景下,目前的GNN方法不能准确的评估子图的因果效应,因此GNN的性能可能会衰减。混淆平衡技术通常被用来评估变量的因果效应,但是他们通常针对某一变量是由单个维度的特征组成的数据,我们要处理的数据是是多个高维变量组成的,因此,我们提出一种多变量多维度的混淆变量平衡技术,如图3b所示:
其中 是第k个混淆变量的embedding矩阵。
图3 GNN的因果视角
重加权HSIC
但是上述的混淆变量平衡技术主要针对的是二元处理变量,我们需要处理的高维处理变量。基于混淆平衡技术主要目的是去除处理变量和混淆变量之间的关联,我以我们考虑采用HSIC来度量高维变量之间的关联,同时提出采用样本加权的方式去除高维变量之间的关联,方法如下:对于两个变量U和V,我们首先采用随机初始化的样本权重来重加权它们:
然后我们可以得到加权的HSIC:
对于去除所有变量之间的相关性,我们优化如下的全局高维变量去相关项:
加权的GNN模型
在传统的GNN模型中,对于每一个图数据的权重是相等的。因为学习到的样本权重 可以全局的去除高层变量之间的相关性,我们提出使用这个样本权重来重加权GNN的损失,并且迭代的优化样本权重 和加权GNN的参数如下所示:
实验
我们分别在仿真数据上和真实数据上验证了我们的实验效果。
仿真实验
我们通过控制“房子”模体和“星星”模体的相关性程度,生成了{0.6,0.7,0.8,0.9}四种偏差程度不同的训练数据,更多生成数据的细节请参考原文。我们分别以GCN/GraphSAGE作为基模型实现了我们的模型,所以本节主要和相应的基模型进行了对比。
实验结果如表1所示。首先,相较于基模型我们都取得了比较大的提升效果,证明了我们是个有效的框架。其次,在偏差程度越大的数据上提升效果越明显,证明了我们的方法可以有效对抗数据偏移产生的分布外效果下降的问题。最后,我们的模型相较于GCN/GraphSAGE都有明显的提升,证明了我们的方法是一个灵活的框架可以提升现有模型的效果。
图4是一些可解释性的例子,也能很好的说明我们的模型可以利用因果结构进行预测。
Case 1 : 如我们所见,GCN分配了更高的权重到“Star”模体,然而,StableGNN-GCN更多的关注于“house”模体。尽管GCN可以通过“Star”模体做出正确的预测,但是这样的预测是不稳定的,并且意味着如果在训练数据中存在虚假相关,模型将会依赖这种虚假相关做出预测。但是这种不稳定的预测是我们不想要的,因为这些不稳定的结构在测试阶段可能会改变。
Case 2 :在这个例子里,有个“grid”模体和“house”模体相连接。如图所示,GCN更加关注“Grid”模体并且StableGNN-GCN仍然更加关注“house”模体。由于存在虚假相关的子图,会导致减小因果子图对于预测的置信度。当存在另一个不相关的子图时,GCN可能也会关注于这个不相关的子图,导致不正确预测结果。然而,我们的模型可以专注于因果子图不管什么样的子图和它相连。
Case 3:这是一个负例的例子。虚假相关性导致模型关注于“star”模体。由于“star”模体和正例相关,GCN将会预测这个graph为正例。相反,由于我们模型去除了子图之间的虚假相关,我们发现“star”模体可能对于标签没有决定性作用并且“diamond”模体可能对于负标签有更大的影响。
图4 GCN和StableGCN的可解释性例子
真实数据实验
我们在OGB的七个分子图性质预测的数据上展开实验,与常用的数据不同的是,这些数据都采用scaffold splitting 从而使得具有不同结构的图数据划分到训练集和测试集。此外,我们还采用了常用的MUTAG数据集用于解释我们的结果。表2是数据集的统计信息。表3是实验结果。
从表中可以看出,我们的方法综合性能排在前两位,远远大于排名第3的方法,证明了现有GNN方法在OOD场景下的图预测任务上表现的都不好而我们的方法可以取得较好的结果。同时在不同类型数据,不同的任务的数据集上我们都取得了较好的效果,证明了我们的方法是一个通用的框架。
图5是MUTAG数据集上的可解释性实验。蓝色,绿色,红色和黄色分别代表N,H,O,C原子。由GNNExplainer产生的最重要的子图被标为黑色。StableGNN正确的确定了功能团NO2和NH2,这些功能团被认为是对Mutagenic 有决定性作用的,而其他方法不能找到有解释性的子图做预测。
图5 MUTAG数据集上的可解释性实验
4 结论和未来工作
在本文中,我们首次研究了图数据在OOD上的泛化问题。我们以因果视角分析了这个问题,认为子图之间的虚假相关会影响模型的泛化性。为了提高现有模型的稳定性,我们提出一个一般化的因果表示学习框架,称之为StableGNN,其有效的结合图高层表示学习和因果效果评估到一个统一的框架里。丰富的实验很好的验证了StableGNN的有效性,灵活性,和可解释性。
此外,我们认为本文开启了一个在图数据上进行因果表示学习的方向。本文的最重要的贡献是提出了一个通用的因果表示框架:图高层变量表示学习和因果变量区分,这两个部分都可以为任务而特殊的设计。比如,多通道的滤波器可以被用来学习图上的不同的信号到子空间里。然后对于一些数据也许在高层变量之间存在这更复杂的因果结构,因此发现这些因果结构对于重构原始数据生成过程将会更有效。
参考文献
[1] R. Ying, D. Bourgeois, J. You, M. Zitnik, and J. Leskovec, “Gnnex-plainer: Generating explanations for graph neural networks,” inNeurIPS, 2019.
[2] X. Zhang, P. Cui, R. Xu, L. Zhou, Y. He, and Z. Shen, “Deep stablelearning for out-of-distribution generalization,” inCVPR, 2021, pp.5372–5382
[3] R. Ying, J. You, C. Morris, X. Ren, W. L. Hamilton, and J. Leskovec,“Hierarchical graph representation learning with differentiablepooling,” inNeurIPS, 2018.
[4] B. Schölkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner,A. Goyal, and Y. Bengio, “Toward causal representation learning,”Proceedings of the IEEE, vol. 109, no. 5, pp. 612–634, 2021.
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。