Declaration of Interest Statement 论文

转载

mob64ca1401b651 2025-01-06 20:32:24

文章标签 论文阅读人工智能空间查询权重 Cross 文章分类 云原生云计算

Conditional DETR for Fast Training Convergence

Conditional DETR

DETR Decoder Cross-Attention
Conditional Cross-Attention

Experiments
Ablations

The effect of the way forming the conditional spatial query
Focal loss and offset regression with respect to learned reference point
The effect of linear projections T forming the transformation

论文连接：https://arxiv.org/abs/2108.06152v2
源码连接：https://github.com/Atten4Vis/ConditionalDETR

DETR中的交叉注意力模块高度依赖于内容嵌入来定位四端和预测方框，这增加了对高质量内容嵌入的需求，从而增加了训练的难度

Conditional DETR的主要内容是从decoder embedding学习出一个conditional spatial query（条件空间查询）

其好处是，通过条件空间查询，每个交叉注意头都能够关注一个不同区域，例如，一个对象的末端或对象框内的一个区域

这缩小了定位对象类别和盒子区域的空间范围，从而放松了对内容嵌入的依赖，简化了训练

DETR方法的训练收敛速度缓慢，需要500个epochs才能获得良好的性能

在交叉注意力中，内容嵌入是起着最主要的作用，空间嵌入是作为次要的贡献
如果在DETR中，移除key中的空间位置编码，，移除第二个decoder以后的object queries
只使用内容嵌入和query，mAP下降的不多

Declaration of Interest Statement 论文_Cross

第一行是Conditional 训练50轮

第二行是DETR训练50轮

第三行是DETR训练500轮

可以看出第二行最后两个预测还没有学习好

原因为:

空间查询，即对象查询，只给出一般的注意力权重图，而没有利用特定的图像信息
由于训练时间较短，content queries不足以很好地匹配spatial keys，因为它们也被用于匹配content keys

Conditional DETR方法，该方法从相应的解码器输出嵌入中学习每个查询的条件空间嵌入，以形成所谓的解码器多头交叉注意的条件空间查询

条件空间查询是通过将回归对象框的信息映射到嵌入空间

Conditional DETR

Declaration of Interest Statement 论文_人工智能_02

Conditional DETR的模型构成与DETR相同：

backbone
encoder
decoder
ffn

Conditional DETR主要是修改了decoder部分，其他部分是相同的

$Declaration of Interest Statement 论文_Cross_03$

DETR Decoder Cross-Attention

DETR解码器交叉注意机制采用三种输入：query，key，value。

每个键（key）由内容键（content key ）（Ck）（来自编码器的content embedding输出）和一个空间键（spatial key）（Pk）（相应的归一化二维坐标的位置嵌入）来形成的

value是就是编码器（encoder）的content embedding输出

在原始的DETR方法中，每个查询（query）由内容查询（content query）（Cq）（来自解码器自注意的embedding output）和一个空间查询（spatial query）（Pq）（即对象查询 Object query Oq）来形成的。

注意权重是基于查询和键之间的点积

$Declaration of Interest Statement 论文_论文阅读_04$

Conditional Cross-Attention

交叉注意权重由内容注意权重和空间注意权重两个组成部分组成

$Declaration of Interest Statement 论文_论文阅读_05$

与DETR交叉注意不同，我们的机制将内容查询和空间查询的角色分开，使空间查询和内容查询分别关注空间注意权重和内容注意权重

另一个重要的任务是从前一个解码器层的嵌入f中计算空间查询Pq。我们首先确定了不同区域的空间信息是由解码器嵌入和参考点这两个因素共同决定的

Conditional spatial query prediction

我们从嵌入的f和参考点s来预测条件空间查询

$Declaration of Interest Statement 论文_Cross_06$

$Declaration of Interest Statement 论文_Cross_07$

$Declaration of Interest Statement 论文_人工智能_08$

Declaration of Interest Statement 论文_论文阅读_09

可视化了每个头的注意力权重图

第一行是 spatial attention weight $Declaration of Interest Statement 论文_Cross_10$
第二行是 content attention weight $Declaration of Interest Statement 论文_Cross_11$
第三行是这两者的结合 $Declaration of Interest Statement 论文_论文阅读_05$

decoder的self attention的输出作为query，同时需要查询出内容以及空间位置信息
那么在原始的DETR，就会需要很长的时间才能够学好

而条件空间查询就是在有意的把一份空间信息concat到self attention的输出上

Experiments

Declaration of Interest Statement 论文_人工智能_13

Declaration of Interest Statement 论文_Cross_14

Ablations

The effect of the way forming the conditional spatial query

Declaration of Interest Statement 论文_空间查询_15

CSQ-C 表示只使用decoder的content embedding
CSQ-T 表示最有转换 $Declaration of Interest Statement 论文_空间查询_16$
CSQ-P 表示只有位置编码 Ps
CSQ-I 表示 $Declaration of Interest Statement 论文_人工智能_17$ 与 $Declaration of Interest Statement 论文_空间查询_18$

Focal loss and offset regression with respect to learned reference point

Declaration of Interest Statement 论文_空间查询_19

OR表示偏移量回归（offset regression）
FL 表示focal loss
CSQ 就是 Conditioanal spatial query

The effect of linear projections T forming the transformation

Declaration of Interest Statement 论文_论文阅读_20

一个单位矩阵，意味着不学习线性投影
一个单个标量
一个块对角矩阵，意味着每个头部有一个学习的32×32线性投影矩阵
一个没有约束的完整矩阵
一个对角矩阵

有趣的是，单标量有助于提高性能，这可能是由于缩小了目标区域的空间范围

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：unity 新手引导UI

下一篇：DAO层架构图

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯