SGC:简化图卷积网络 《Simplifying Graph Convolutional Networks》
论文地址:https://arxiv.org/abs/1902.07153
一、简介
图卷积神经网络()是卷积神经网络在图数据上的变体,其通过在非线性函数前堆叠若干个一阶谱过滤器来学习图数据的表示。近期,及其变体在各种图应用领域都实现了state-of-the-art。但是,由于是在神经网络“复兴”后提出的,因此不可避免的继承了神经网络的复杂性和难以解释性。
本文认为对于那些需求低的应用来说,继承自神经网络的复杂性是不必要的。因此,本文的目标是推断出在之前基于"传统"路径能够获得的最简单模型。具体来说,本文通过移除层之间的非线性并简化结果函数为单一线性变换,从而减少了的额外复杂性。实验显示,最终得到的模型可以与像媲美,且计算效率更高、拟合参数更少。本文将这个模型称为。
直觉上,是可解释的,且本文从图卷积的角度提供了理论分析。中的特征抽取对应于单个固定的过滤器。发现能够改善任务准确率,本文证明这个方法能够有效的缩小图的谱域,且应用在上能够产生低通过滤器。
通过在基准数据集上的评估,展示了能够与及其他state-of-the-art图神经网络媲美。然而,的速度会快很多,甚至在最大的评估数据集上比快2个数量集。此外,本文还证明了能够有效的扩展至下游任务中。
二、方法
将带有部分标签的节点作为输入,并为图中的所有节点生成预测标签。形式化地,定义一个图为,其中表示由节点组成的顶点集合;是对称邻接矩阵,其中表示节点和的权重,缺失的边通过来表示。定义度矩阵为一个对角矩阵,其对角线上的每个分量是等于邻接矩阵的行求和。
图中的每个节点对应一个维特征向量。整个特征矩阵则是堆叠了个特征向量,即。每个节点都属于个类别中的一个,并使用维one-hot编码向量表示。
模型仅知道一部分节点的标签,并希望预测节点的未知标签。
1. 图卷积神经网络
类似于或者,也是通过多个层来从每个节点的特征中学习新的特征表示,并用线性分类器进行分类。对于第个图卷积层来说,所有节点的输入表示为矩阵,输出节点表示为。自然而然地,初始化节点表示就是原始输入的特征:
其作为第1个的输入。
一个层的等同于在图中的每个节点特征上应用层的,且每个节点的向量表示都是平均了其邻居节点的表示。在每个图卷积层中,节点的向量表示会在三个阶段被更新:(1) 特征传播;(2) 线性变换; (3) 非线性激活函数。
1.1 特征传播
与的主要区别就是特征传播。在每层的开始,每个节点的特征是平均了它局部邻居的特征向量
为了更加紧凑,这里将整个图上的更新表示为简单的矩阵操作。具体来说,令表示规范化邻接矩阵
其中,且是的度矩阵。那么,等式中所有节点的同步更新能够简化为一个稀疏矩阵乘法
直觉上,这步操作沿着图的边平滑了局部向量表示,并且鼓励局部的点具有相似的预测。
1.2 线性变换与非线性激活
经过局部平滑后,层与层等价。每个层都被关联一个可学习权重,用于对经过平滑的特征向量进行线性变换。最后,在特征向量输出前,使用这样的非线性激活函数对输出进行变换。整体来说,第层的向量表示更新规则为
1.3 分类器
类似于,对于节点分类任务,会在最后一层使用分类器预测标签概率。个节点的类别预测表示为,其中表示节点属于类别的概率。第层的类别预测记为
其中,。
2.
在传统的层中,更深的层能够增加表达能力。因此,深层的能够构建特征的层次结构,即第二层的特征是在第一层特征的基础上构建的。在中,这些层还有第二个重要作用:每层的隐藏表示会被其一跳邻居平均。这也意味着,一个经过层的阶段特征来源于其在图中的所有跳邻居。这种方式类似于卷积神经网络,模型深度增加的同时也增加了特征的感知域。虽然随着深度的增加,卷积网络的效果会变好,但是典型的在3或4层之后就收益很小了。
2.1 线性化
假设两个层间的非线性变换并不是必须的,模型的收益主要来自于局部平均。那么,移除每层的非线性变换并保留最后的。这样得到的模型仍然是线性的,且与层的具有相同的感知域
为了简化表示,将规范化邻接矩阵的重复乘法表示为的次方法。此外,将权重矩阵重新参数化为单一的矩阵。那么最终的分类器表示为
本文将其称为。
2.2 Logistic回归
通过观察等式能够获得的直觉解释:分离特征抽取和分类器。即可以看做是由一个固定的特征抽取/平滑组件,后面跟一个线性回归分类器组成。由于不需要权重,因此计算就等价于特征预处理步骤。整个模型的训练就变成了在预处理特征上的直接进行多类别回归。
三、谱分析()
1. 图卷积
图数据上的分析依赖于图算子的谱分解。
图矩阵(规范化版本)为对称正定矩阵。该矩阵的特征分解为,其中是由正交特征向量组成,且为特征值对角矩阵。矩阵的特征分解能够允许在图域上定义等价的傅里叶变换,特征向量对应的模,特征值对应图上的频率。基于此,令表示定义在图上顶点的信号,那么的图上变换为且逆操作为。因此,信号和过滤器的图卷积操作定义为
其中,表示对角矩阵,其对角线元素对应谱过滤器系数。
图卷积能够通过的k阶多项式完成近似,
其中,表示系数。在这个例子中,过滤器系数对应于特征值的多项式,即或者相当于。
图卷积神经网络利用了等式的线性近似,该线性近似具有系数和。得到基本的卷积操作
在其最终的设计中,将矩阵替换为规范化版本,其中且。
2. 和低通滤波
中初始的过滤器对应于传播矩阵。规范化拉普拉斯算子为,那么。因此,特征传播意味着过滤系数,其中表示的特征值。上图展示了传播步骤的变化与过滤操作的关系。可以观察到,高阶将会导致过滤系数的爆炸并在频率上过度放大。
为了解决一阶过滤器的问题,等人提出了。该方法通过为所有节点加入自循环后的归一化邻接矩阵来替换。本文称得到的传播矩阵为增强的归一化邻接矩阵,其中且。相应的,定义增强规范化矩阵。这样,就可以将关于的谱过滤器描述为矩阵特征值的多项式,即,其中是的特征值。
- 定理1
令是一个无向、有权且无孤立点的简单图的邻接矩阵,其对应的度矩阵为。令为增强邻接矩阵(),其对应的度矩阵为。令和表示的最小特征这和最大特征值。类似地,和则是的最小特征性和最大特征值。则有
定理1表明,在加入自循环后,规划化矩阵的最大值变小。