神经网络注意力机制神经网络注意力机制ppt

转载

IT剑客风云 2023-10-14 16:12:20

文章标签 神经网络注意力机制神经网络深度学习复杂度 文章分类 文心一言 AIGC

神经网络与深度学习（六）—— 注意力机制

1.1 注意力机制

1.1.1 认知神经学中的注意力
1.1.2 注意力机制

1.1.2.1 注意力分布
1.1.2.2 加权平均

1.1.3 注意力机制的变体

1.1.3. 1 键值对注意力
1.1.3.2 多头注意力
1.1.3.3 结构化注意力
1.1.3.4 指针网络

1.2 自注意力机制

为了减少计算复杂度，我们引入了局部连接，权重共享以及池化操作来简化网络结构。但目前计算机的计算能力依然是限制神经网络发展的瓶颈。因此我们依然希望在不过度增加模型复杂度（主要是模型参数）的情况下来提高模型的表达能力。

神经网络中可以存储的信息量称为网络容量（Network Capacity）。一般来讲神经网络的存储容量和神经元的数量以及网络的复杂度成正比。

我们可以借鉴人脑解决输入信息过载的机制，从两个方面来提高神经网络处理信息的能力：

注意力机制。通过自上而下的信息选择机制来过滤掉大量的无关信息；
外部记忆。引入额外的外部记忆，优化神经网络结构来提高网络存储信息的容量。

本文仅探讨注意力机制。

1.1 注意力机制

在计算能力有限的情况下，Attention Mechanism 作为资源分配方案，是解决信息超载问题的主要手段。

1.1.1 认知神经学中的注意力

大脑从大量的输入信息中，重点关注一小部分有用的信息同时忽略其他信息的选择能力，叫做注意力 （Attention）。

大脑的注意力一般分为两种：

聚焦式注意力（Focus Attention）。有预定目标、依赖任务的、主动有意识的聚焦于某一对象的注意力。
基于显著性的注意力（Saliency Based Attention）。由外界刺激驱动的注意力，不需要主动干预，也和任务无关。如果一个对象的刺激信息不同于其周围信息，一种无意识的“赢者通吃（Winner-Take-All）”或者门控机制（Gating）就可以把注意力转向这个对象。

目前的神经网络模型中最大池化（Max Pooling）、门控机制（Gating）近似可以看做基于显著性的注意力机制。

1.1.2 注意力机制

此处注意力机制指主动的聚焦式注意力。

用 $神经网络注意力机制神经网络注意力机制ppt_复杂度$ 表示 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_02$ 组输入信息，其中 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_03$ 维向量 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_04$ 表示一组输入信息。为了节省计算资源，只需要从 $神经网络注意力机制神经网络注意力机制ppt_复杂度_05$

注意力机制的计算可以分为两步：

在所有输入信息上计算注意力分布，
根据注意力分布计算输入信息的加权平均。

1.1.2.1 注意力分布

为了从 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_02$ 个输入向量 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_07$ 中选择出和某个特定任务相关的信息，我们需要引入一个和任务相关的表示，称为查询向量（Query Vector）。并通过一个打分函数来计算每个输入向量和查询向量之间的相关性。

给定一个和任务相关的查询向量 $神经网络注意力机制神经网络注意力机制ppt_深度学习_08$ （查询向量可以是动态生成的，也可以是可学习的参数），我们用注意力变量 $神经网络注意力机制神经网络注意力机制ppt_神经网络_09$ 来表示被选择信息的索引位置，即 $神经网络注意力机制神经网络注意力机制ppt_深度学习_10$ 表示选择了第 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_11$ 个输入向量。为了方便计算，我们采用一种“软性”的信息选择机制。首先计算在给定 $神经网络注意力机制神经网络注意力机制ppt_深度学习_08$ 和 $神经网络注意力机制神经网络注意力机制ppt_复杂度_05$ 下，选择第 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_14$ 个输入向量的概率 $神经网络注意力机制神经网络注意力机制ppt_深度学习_15$ ：
$神经网络注意力机制神经网络注意力机制ppt_神经网络_16$
其中 $神经网络注意力机制神经网络注意力机制ppt_复杂度_17$ 称为注意力分布（Attention Distribution)， $神经网络注意力机制神经网络注意力机制ppt_复杂度_18$ 为注意力打分函数（s即similarity，计算两者的相似性或者相关性），可以使用以下几种方式来计算：

加性模型： $神经网络注意力机制神经网络注意力机制ppt_复杂度_19$
点积模型： $神经网络注意力机制神经网络注意力机制ppt_深度学习_20$
缩放点积模型： $神经网络注意力机制神经网络注意力机制ppt_深度学习_21$
双线性模型： $神经网络注意力机制神经网络注意力机制ppt_神经网络_22$

其中 $神经网络注意力机制神经网络注意力机制ppt_深度学习_23$ ， $神经网络注意力机制神经网络注意力机制ppt_深度学习_24$ ， $神经网络注意力机制神经网络注意力机制ppt_深度学习_25$ 为可学习的参数， $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_03$ 为输入向量的维度。

理论上加性模型和点积模型的复杂度差不多，但点积模型可以更好的利用矩阵乘积，计算效率更高。

当输入向量的维度较高时，点积模型的值通常由较大的方差，从而导致 Softmax 函数的梯度会比较小。而缩放点积模型可以较好的解决这个问题。

双线性模型是一种泛化的点积模型，假设模型参数 $神经网络注意力机制神经网络注意力机制ppt_复杂度_27$ ,双线性模型可写为 $神经网络注意力机制神经网络注意力机制ppt_神经网络_28$ ，即分别对 $神经网络注意力机制神经网络注意力机制ppt_深度学习_29$ , $神经网络注意力机制神经网络注意力机制ppt_深度学习_08$ 进行线性变换后计算点积。相比点积模型，双线性模型在计算相似度时引入了非对称性。

1.1.2.2 加权平均

注意力分布 $神经网络注意力机制神经网络注意力机制ppt_深度学习_15$ 可以解释为在给定任务相关的查询 $神经网络注意力机制神经网络注意力机制ppt_深度学习_08$ 时，第 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_11$ 个输入向量受关注的程度。我们采用一种“软性”的信息选择机制对输入信息进行汇总，即软性注意力机制（Soft Attention Mechanism）：
$神经网络注意力机制神经网络注意力机制ppt_神经网络_34$

软性注意力机制选择的信息是所有输入向量在注意力分布下的期望。

下图为软性注意力机制示例：

神经网络注意力机制神经网络注意力机制ppt_复杂度_35

另一种注意力是只关注某一输入向量，叫作硬性注意力（Hard Attention）。硬性注意力有两种实现方式：

1）选取注意力分布中概率最高的输入向量，即最大采样：
$神经网络注意力机制神经网络注意力机制ppt_复杂度_36$

其中 $神经网络注意力机制神经网络注意力机制ppt_复杂度_37$ 为概率最大的输入向量的下标，即 $神经网络注意力机制神经网络注意力机制ppt_复杂度_38$ 。

2）在注意力分布式上随机采样。

硬性注意力的一个缺点是损失函数与注意力分布之间的函数关系不可导，无法使用反向传播算法进行训练。因此硬性注意力通常使用强化学习来进行训练。

注意力机制可以单独使用，但更多的是作为神经网络中的一个组件。

1.1.3 注意力机制的变体

1.1.3. 1 键值对注意力

用键值对（key-velue pair）格式表示输入信息，其中“键”用来计算注意力分布 $神经网络注意力机制神经网络注意力机制ppt_深度学习_15$ ，“值”用来计算聚合信息。

用 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_40$ 表示 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_02$ 组输入信息，给定任务相关的查询向量 $神经网络注意力机制神经网络注意力机制ppt_深度学习_08$ 时，注意力函数为：
$神经网络注意力机制神经网络注意力机制ppt_深度学习_43$
当 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_44$ 时，键值对模式就等价于普通的注意力机制。

键值对模式图示：

神经网络注意力机制神经网络注意力机制ppt_神经网络_45

1.1.3.2 多头注意力

Multi-Head Attention 是利用多个查询 $神经网络注意力机制神经网络注意力机制ppt_复杂度_46$ 来并行地从输入信息中选取多组信息，每个注意力关注输入信息的不同部分。
$神经网络注意力机制神经网络注意力机制ppt_神经网络_47$ $神经网络注意力机制神经网络注意力机制ppt_复杂度_48$ 表示向量拼接。

1.1.3.3 结构化注意力

1.1.3.4 指针网络

注意力机制主要用来做信息筛选，从输入信息中选取相关的信息。

指针网络（Pointer Network）是一种序列到序列模型，输入是长度为 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_02$ 的向量序列 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_50$ ，输出是长度为 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_51$ 的下标序列 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_52$

和一般的序列到序列的任务不同，这里的输出序列是输入序列的下标（索引）。比如输入一组乱序的数字，输出为按大小排序的输入数字序列的下标。如输入 20，5，10，输出 1，3，2。

条件概率 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_53$ 可以写为
$神经网络注意力机制神经网络注意力机制ppt_深度学习_54$ 其中条件概率 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_55$ 可以通过注意力分布来计算。假设用一个循环神经网络对 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_56$ 进行编码得到向量 $神经网络注意力机制神经网络注意力机制ppt_复杂度_57$ ，则
$神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_58$
其中 $神经网络注意力机制神经网络注意力机制ppt_复杂度_59$ 为在解码过程的第 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_60$ 步时， $神经网络注意力机制神经网络注意力机制ppt_复杂度_57$ 对 $神经网络注意力机制神经网络注意力机制ppt_深度学习_62$ 的未归一化的注意力分布，即
$神经网络注意力机制神经网络注意力机制ppt_深度学习_63$
其中 $神经网络注意力机制神经网络注意力机制ppt_深度学习_25$ , $神经网络注意力机制神经网络注意力机制ppt_深度学习_23$ , $神经网络注意力机制神经网络注意力机制ppt_深度学习_24$ 为可学习的参数。

下图给出了指针网络的实例，其中 $神经网络注意力机制神经网络注意力机制ppt_深度学习_67$ ， $神经网络注意力机制神经网络注意力机制ppt_复杂度_68$ ， $神经网络注意力机制神经网络注意力机制ppt_神经网络_69$ 为输入数字 20，5，10 经过循环神经网络的隐状态， $神经网络注意力机制神经网络注意力机制ppt_神经网络_70$ 对应特殊字符‘<’.当输入‘>’时，网络一步一步输出桑输入数字从大到小排列的下标。

神经网络注意力机制神经网络注意力机制ppt_复杂度_71

1.2 自注意力机制

虽然循环网络理论上可以建立长距离依赖关系，但由于信息传递的容量以及梯度消失问题，实际上也只能建立短距离依赖关系。

如果要建立序列之间的长距离依赖关系，可以使用以下两种方法：
1）增加物理的层数，通过一个深层网络来获取远距离的信息交互；
2）使用全连接网络。

全连接网络是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列，不同的输入长度，其连接权重的大小也不同。这时我们可以利用注意力机制来“动态”的生成不同连接的权重，这就是自注意力模型（self-attention model）。自注意力模型更容易捕获中长距离的相互依赖关系。

为提高模型能力，自注意力模型经常采用查询-键-值（query-key-velue，QKV）模式，其计算过程如下图所示，其中红色字母表示矩阵的维度。

神经网络注意力机制神经网络注意力机制ppt_复杂度_72

假设输入序列为 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_73$ ，输出序列为 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_74$ ,自注意力模型的具体计算过程如下：

1）对于每个输入 $神经网络注意力机制神经网络注意力机制ppt_复杂度_75$ ，我们首先将其线性映射到三个不同的空间，得到查询向量KaTeX parse error: Expected '}', got 'EOF' at end of input: …athbb{R}^{D_{k}、键向量 $神经网络注意力机制神经网络注意力机制ppt_神经网络_76$ 和值向量 $神经网络注意力机制神经网络注意力机制ppt_复杂度_77$ 。
对于整个输入序列 $神经网络注意力机制神经网络注意力机制ppt_复杂度_05$ ,线性映射过程可以简写为 $神经网络注意力机制神经网络注意力机制ppt_神经网络_79$
其中 $神经网络注意力机制神经网络注意力机制ppt_复杂度_80$ 分别为线性映射的参数矩阵， $神经网络注意力机制神经网络注意力机制ppt_深度学习_81$ 分别由查询向量、键向量和值向量构成的矩阵。

2）对于每一个查询向量 $神经网络注意力机制神经网络注意力机制ppt_神经网络_82$ 利用键值对注意力机制，可以得到输出 $神经网络注意力机制神经网络注意力机制ppt_神经网络_83$
$神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_84$
其中 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_85$ 为输出和输入向量序列的位置， $神经网络注意力机制神经网络注意力机制ppt_复杂度_86$ 表示第 $神经网络注意力机制神经网络注意力机制ppt_神经网络注意力机制_11$ 个输出关注到第 $神经网络注意力机制神经网络注意力机制ppt_复杂度_88$ 个输入的权重。