memory bank出自哪篇论文 memory-based

转载

技术极客 2024-04-23 08:20:40

文章标签 memory bank出自哪篇论文图神经网络图池化卷积数据集 文章分类 机器学习人工智能

本文提出了一种memory layer，借助multi-head array of memory keys和卷积算子，学习soft cluster assignment。不像是GCN依赖于local信息，memory layer依赖于全局信息，因此不用担心过平滑。根据memory layer为基础提出了两种不同的模型：memory-based GNN (MemGNN)以及graph memory network (GMN)。其中，Memory augmented neural networks (MANNs)是模型的基础，所以在看模型之前还是学习一下MANN。

MANN

对于一般的神经网络，比如RNN，我们将其视为一个黑盒，一个封装好的函数，只需要在执行的时候调用相关参数。而MANN则具有“互动能力”，或者直白地说，可以与内存进行交互，通过访问内存中的相关数据，使得模型具有更强的思考与记忆的能力。一个记忆网络（memory networks，简称为MemNN），包括了记忆m，还包括以下4个组件I、G、O、R（lstm的三个门，然后m像cell的list）：

memory bank出自哪篇论文 memory-based_图神经网络

Input：将输入向量投影到更高的特征维度。
Generalization：更新记忆，对于数组来说可能只是简单的插入。
Output：结合输入，从记忆里抽取出适合的结果，返回一个向量。
Response：将记忆向量转化为合适的输出格式。相当于一个逆向的Input。

但是个人觉得本文中提及的memory虽然在原理上属于记忆网络，但是好像也更贴近Transformer中提及的KQV注意力。可能知识学着学着就学杂了。

METHOD

memory layer

记忆层被定义为：

memory bank出自哪篇论文 memory-based_memory bank出自哪篇论文_02

这是一个函数，将输入 $memory bank出自哪篇论文 memory-based_图神经网络_03$ 转化为 $memory bank出自哪篇论文 memory-based_卷积_04$ ，并且 $memory bank出自哪篇论文 memory-based_图神经网络_05$ 。没错，这部分对应了图粗化。并且，特征维度从 $memory bank出自哪篇论文 memory-based_卷积_06$ 变成了 $memory bank出自哪篇论文 memory-based_数据集_07$ ，顺便也学习了节点的特征。记忆层如图一所示：

memory bank出自哪篇论文 memory-based_卷积_08

记忆层的本质是多头的注意力数组keys， $memory bank出自哪篇论文 memory-based_卷积_09$ 是head数。这里的多头就是注意力的多头，多次提取特征效果更好。对于每一个输入，首先通过所有输入共享的query将输入特征变换为高阶特征，可以对应记忆网络的Input。然后再经过记忆层，同每一个key进行比较（本质上就是比较query和key的相似程度，这个相似度需要根据实际情况自己定义，欧氏距离余弦相似度都是可以的），得到 $memory bank出自哪篇论文 memory-based_卷积_09$ 个注意力矩阵。然后接着使用卷积层将其聚合成一个注意力矩阵。

本文将input query表示为 $memory bank出自哪篇论文 memory-based_图池化_11$ ，作为输入的图的特征表示，keys为 $memory bank出自哪篇论文 memory-based_memory bank出自哪篇论文_12$ ，作为query的聚类中心。然后，使用一种对集群友好的分布作为键和查询之间的距离度量（Student’s t-distribution）：

memory bank出自哪篇论文 memory-based_图神经网络_13

其中 $memory bank出自哪篇论文 memory-based_图池化_14$ 就是normalized score，对于本文的就是节点 $memory bank出自哪篇论文 memory-based_memory bank出自哪篇论文_15$ 被分配给集群 $memory bank出自哪篇论文 memory-based_图池化_16$ 的概率， $memory bank出自哪篇论文 memory-based_图池化_17$ 表示自由度。那么多头的注意力则表示为： $memory bank出自哪篇论文 memory-based_图神经网络_18$ 。为了将这些头集合成一个赋值矩阵，我们在标准卷积类比中将这些头和赋值矩阵作为深度、高度和宽度通道，并对它们应用一个卷积运算符（也就是图中的蓝色框框），形式化描述为：

memory bank出自哪篇论文 memory-based_图神经网络_19

其中 $memory bank出自哪篇论文 memory-based_数据集_20$ 表示为[1,1,|h|]的卷积。然后，粗化的节点表示V为：

memory bank出自哪篇论文 memory-based_图池化_21

之后使用单层前馈神经网络得到下一层的Q：

memory bank出自哪篇论文 memory-based_卷积_22

对于图分类任务，可以简单地将内存层堆叠到输入图被粗化为表示全局图表示的单个节点的水平，然后将其提供给完全连接的层来预测图类，如下所示：

memory bank出自哪篇论文 memory-based_图池化_23

其中， $memory bank出自哪篇论文 memory-based_数据集_24$ 是最初始的query，通过对图应用query网络 $memory bank出自哪篇论文 memory-based_卷积_25$ 得到。本文介绍了两种不同的基于memory network的架构，分别为GMN与MemGNN。

GMN

GMN是一系列记忆网络的堆叠，并且不使用任何消息传递机制生成query，最上层是一个query network $memory bank出自哪篇论文 memory-based_数据集_26$ ，将初始节点特性投射到表示初始查询空间的潜在空间中。因此，每个节点的拓扑信息需要以某种方式编码到其初始表示中。本文使用带有重启的随机游走策略（RWR）计算这个网络拓扑的嵌入，然后按行对它们进行排序，以强制嵌入顺序不变。然后使用一个两层前馈神经网络的查询网络将拓扑嵌入与初始节点特性融合到初始查询表示中：

memory bank出自哪篇论文 memory-based_数据集_27

这个其实就是拓扑结构特征经过线性变换 $memory bank出自哪篇论文 memory-based_图池化_28$ 再和属性特征 $memory bank出自哪篇论文 memory-based_memory bank出自哪篇论文_29$ 进行拼接。

MEMGNN

这个直接使用GCN去聚合拓扑结构的特征：

memory bank出自哪篇论文 memory-based_图神经网络_30

为了考虑边的特殊性，本文对GAT进行了一些修改，称为e-GAT，也考虑了边的信息：

memory bank出自哪篇论文 memory-based_数据集_31

$memory bank出自哪篇论文 memory-based_卷积_32$ 表示节点， $memory bank出自哪篇论文 memory-based_卷积_33$ 表示边，也就是节点和边的特征拼接起来，作为最终的输入。

TRAINING

训练的时候除了分类的损失函数，还考虑了聚类的效果。聚类的loss被定义为KL散度。KL散度被衡量两个不同的概率分布之间的相似程度。soft assignments $memory bank出自哪篇论文 memory-based_图神经网络_34$ 与目标分布 $memory bank出自哪篇论文 memory-based_数据集_35$ 之间的KL散度为：