摘要
论文提出了一种新的搜索框架,名为 HyCTAS,用于在给定任务中自动搜索高效的神经网络架构。HyCTAS框架结合了高分辨率表示和自注意力机制,通过多目标优化搜索,找到了一种在性能和计算效率之间的平衡。
# 理论介绍
自注意力(Self-Attention)机制是HyCTAS框架中的一个重要组成部分,是一种能够捕捉输入序列中不同位置之间关系的机制。核心思想是:对于输入的每一个元素,它都会通过与所有其他元素的关系来重新计算自己的表示,这种机制允许网络根据上下文信息动态地调整其对输入各部分的关注程度。
在论文中,自注意力模块主要用于捕获长程依赖,这意味着它能够关注输入数据中远离当前位置的相关信息。例如,在图像分割任务中,自注意力模块能够帮助网络理解图像中不同区域之间的关系,提升网络对图像的整体理解能力。下图摘自论文
小目标理论
在YOLOv11 中,输入图像的尺寸为 640x640x3,经过 8 倍、16 倍和 32 倍下采样后分别得到 80x80、40x40 以及 20x20 大小的特征图,网络最终在这三个不同尺度的特征图上进行目标检测。在这三个尺度的特征图中,局部感受野最小的是 8 倍下采样特征图,即如果将该特征图映射到原输入图像,则每个网格对应原图 8x8 的区域。对于分辨率较小的目标而言,8 倍下采样得到的特征图感受野仍然偏大,容易丢失某些小目标的位置和细节信息。为了改善目标漏检现状,对 YOLOv8 的 Head 结构进行优化,在原有的三尺度检测头的基础之上,新增一个针对微小目标检测的检测头 ,YOLOv11 原有 P3、P4 和 P5 这 3 个输出层,分别用于检测小、中、大目标,增加 P2 检测层后,网络能在4个不同尺度的特征图上做检测,P2 能检测到最小目标分辨率为 4x4。通过增加小尺度检测头的方式,整个网络能在 4 倍、8 倍、16 倍和 32 倍下采样特征图上预测不同尺度的目标,大幅度提高了算法的多尺度目标检测性能。四个检测头如下表格所示:
名称 | 特征图大小 | 检测目标大小 | 用于检测目标 |
---|---|---|---|
P2/4 | 160x160 | 4x4 以上 | 微小目标 |
P3/8 | 80x80 | 8x8 以上 | 小目标 |
P4/16 | 40x40 | 16x16 以上 | 中型目标 |
P5/32 | 20x20 | 32x32 以上 | 大型目标 |
理论详解可以参考链接: