这是今天读的第二篇论文,EfficientDet: Scalable and Efficient Object Detection。论文地址以引用方式出现,听起来好像挺酷,其实大家根本不会看的,对吧 = =
这篇论文主要讨论了两个方面,加权双向特征金字塔网络(BiFPN)也是本文重点,另一方面提出改进型网络EfficientDet,可以同时统一缩放所有骨干网、特征网络和框/类预测网络的分辨率、深度和宽度的模型。
代码地址:https://github.com/google/automl/tree/master/efficientdet
非重点番外:模型缩放 :根据[2][3],作者认为增加通道大小和重复特征网络工作也可以带来更高的准确性。这些缩放方法主要集中在单一或有限的缩放维度上,根据《Efficientnet: Rethinking model scaling for convolutional neural networks》[4] 联合扩大网络宽度、深度和分辨率,展示了图像分类的卓越模型效率。作者提出了本文。
重点:
BiFPN 的主要思想:高效双向跨尺度连接和加权特征融合。
模型现况对比
多尺度特征表示是目标检测的重点方向之一,作者认为其主要困难是如何有效地表示和处理多尺度特征。
- 早期的检测器通常直接根据从骨干网络中提取的金字塔特征层次结构进行预测 。
- 特征金字塔网络 (FPN)提出了一种自上而下的途径来组合多尺度特征。
- 基于FPN,PANet 在 FPN 之上添加了一个额外的自下而上的路径聚合网络;
- NAS‑FPN [8]利用神经架构搜索来自动设计特征网络拓扑。虽然实现了更好的性能,但 NAS‑FPN 在搜索过程中需要数千 GPU 小时,并且生成的特征网络是不规则的,因此难以解释。
- BiFPN:引入可学习的权重来学习不同输入特征的重要性,同时重复应用自上而下和自下而上的多尺度特征融合.
下图表示各类网络模型的结构:
( a ) FPN 引入自上而下的路径来融合从 3 级到 7 级(P3 ‑ P7)的多尺度特征;
( b ) PANet 在 FPN 之上添加了一个额外的自下而上的路径;
( c ) NAS‑FPN 使用神经架构搜索找到不规则的特征网络拓扑,然后重复应用相同的块;
( d ) BiFPN 双向跨尺度连接和加权特征融合,具有更好的准确性和效率权衡。
BiFPN做法之跨尺度链接
- 删除那些只有一个输入边的节点。理由:如果一个节点只有一个没有特征融合的输入边,那么它对旨在融合不同特征的特征网络的贡献就会较小,这导致了一个简化的双向网络。
- 如果它们处于同一级别,则从原始输入到输出节点添加一条额外的边,以便在不增加太多成本的情况下融合更多的功能。
- 与只有单次双向(自上而下和一个自下而上)路径的 PANet 不同,将每个双向(自聚合多尺度特征:上而下和自下而上)路径视为一个特征网络层,并多次重复同一层以启用更高级的特征融合。
BiFPN做法之加权特征融合
- 旧的做法:先将它们调整到相同的分辨率,然后将它们相加。以前的方法都一视同仁地对
待所有的输入特征,没有区别。- 文中的做法:由于不同的输入特征具有不同的分辨率,它们通常对输出特征的贡献不均。为了解决这个问题,我们建议为每个输入添加一个额外的权重,让网络学习每个输入特征的重要性。提出了三种加权融合方法。
(1) Unbounded fusion:无边界融合: O =Σ wi · Ii
(2)Softmax-based fusion基于 Softmax 的融合:过于慢于是提出(3)
(3)Fast normalized fusion快速归一化融合:本质就是把softmax的e去掉,将权重w作为运算方式
BiFPN融合特征计算方式:
Resize: 用于分辨率匹配的上采样或下采样操作
Conv: 用于特征处理的卷积操作。
EfficientDet 架构 它采用 EfficientNet作为骨干网络,BiFPN 作为特征网络,以及共享类/框预测网络。 BiFPN 层和类/框box网络层都根据不同的资源约束重复多次。
个人总结:本文重点在于说明设计了BiFPN特征网络结构,如果能多使用几次BiFPN的话,会使实验效果更好。
引用:
- Tan, Mingxing, Ruoming Pang, and Quoc V. Le. “Efficientdet: Scalable and efficient object detection.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
- Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, and Quoc V. Le. Nas-fpn: Learning scalable feature pyramid architecture for object detection. CVPR, 2019.
- Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin,Jonathon Shlens, and Quoc V. Le. Learning data aug-mentation strategies for object detection. arXiv preprint arXiv:1804.02767, 2019.
- Mingxing Tan and Quoc V. Le. Efficientnet: Rethinkingmodel scaling for convolutional neural networks. ICML,2019.