百度百科:神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力。注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。核心目标也是从众多信息中选择出对当前任务目标更关键的信息。
Transformer的整个架构就是叠层的self-Attention和全连接层。
。。 14:04:21
qkv之后 q和k矩阵乘 获取每个q位置和每个k位置的对应权重
。。 14:04:46
然后这个权重矩阵用来加权采样v 获得attention输出
x通过三个矩阵得到qkv之后, q和k矩阵乘, 获取每个q位置和每个k位置的对应权重,然后这个权重矩阵用来加权采样v 获得attention输出。
两个框架的对比:由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci
1.未引入注意力:
2.引入注意力机制:
先讲正常的框架,再引入注意力
论文:•Volodymyr Mnih, Nicolas Heess, Alex Graves, Koray Kavukcuoglu. Recurrent Models of Visual Attention. NIPS 2014: 2204-2212
•Dzmitry Bahdanau, et al.,Neural machine translation by jointly learning to align and translate, 2015
抽象的encoder-decoder模型!注意力机制正式依附于这样的模型。
c是上下文向量,可以直接把最后一个隐状态作为上下文的变量,也可以对最后的隐状态进行非线性变换或者对所有的隐状态进行非线性变换。
问题:输入的序列不论长短都会编码成一个固定长度的向量表示,而解码则受限于该固定长度的向量表示。
解决:注意力机制。
下图中,可以看出,Cij权重其实是由s解码层的状态和h编码层的状态决定的。下面一整套的公式就可以根据h和s算出每一个C。
定义每个输出的条件概率为:
Si为解码器RNN的隐层状态:
Ci上下文变量取决于编码器状态序列,通过注意力系数对hj加权求得
注意力系数由softmax函数计算。也有相似函数
由开头看出,区别在每个Ci可能对应着不同的源语句子单词的注意力分配概率分布。注意力分配的系数的计算:
比如左边query输入people,与key等计算相似度,乘以相对应的value,就计算出对应的注意力系数。
详细流程
下面的key是当前的输入,value是编码层的状态。
阶段1:根据query和key计算两者的相似性
阶段2:对第一阶段的原始分值进行归一化处理
阶段3:根据权重系数对value进行加权求和,得到的系数。
Tansformer
Transformer其实这就是一个Seq2Seq模型,左边一个encoder把输入读进去,右边一个decoder得到输出
import torch
from vit_pytorch.efficient import ViT
from linformer import Linformer
efficient_transformer = Linformer(
dim = 512,
seq_len = 4096 + 1,
# 64 x 64 patches + 1 cls token
depth = 12,
heads = 8,
k = 256
)
v = ViT(
dim = 512,
image_size = 2048,
patch_size = 32,
num_classes = 1000,
transformer = efficient_transformer
)
img = torch.randn(1, 3, 2048, 2048)
# your high resolution picture
v(img)
# (1, 1000)
VIT总结
回顾一下整个流程:
一个图片224×224,分成了49个32×32的patch;
对这么多的patch做embedding,成49个128向量;
再拼接一个cls_tokens,变成50个128向量;
再加上pos_embedding,还是50个128向量;
这些向量输入到transformer中进行自注意力的特征提取;
输出的是50个128向量,然后对这个50个求均值,变成一个128向量;
然后线性层把128维变成2维从而完成二分类任务的transformer模型。
传统的 Transformer 输入时一维的 token embedding 序列,为了处理二维的图像,需要把图像分为几个区块 (patch)。给定一个 H×W×C 的图像以及区块大小 P,可以把图像划分为 N 个 P×P×C 的区块,N=H×W/(P×P)。得到区块后要使用线性变换转为 D 维特征向量,再加上位置编码向量即可。和 BERT 类似,ViT 在序列之前也加入了一个分类标志位 [class]。ViT 输入序列 z如下面的公式所示,其中 x 表示一个图像区块。
ViT 模型和 Transformer 基本一样,输入序列传入 ViT,然后利用 [class] 标志位的最终输出特征进行分类。ViT 主要由 MSA (多头自注意力) 和 MLP (两层使用 GELU 激活函数的全连接网络) 组成,在 MSA 和 MLP 之前加上 LayerNorm 和残差连接。