三维目标检测是自动驾驶中理解环境的一项重要感知任务,鸟瞰图(BEV)表示显著提高了纯视觉3D检测在大多基准上的性能。然而,对这些依赖视觉模型的鲁棒性仍缺乏系统的了解,这与自动驾驶系统的安全性密切相关。本文评估了各种代表性模型在大多数环境下的自然鲁棒性和对抗性鲁棒性,以充分理解与非BEV的模型相比,它们受到显式BEV特征影响的行为。除了经典设置外,本文还提出了一种3D一致性patch 攻击,通过在3D空间中应用对抗性patch 来保证时空一致性,这对于自动驾驶场景更为现实。通过大量实验,可以得出以下几点发现:

  1. 在不同的自然条件和常见的损坏下,由于表达的空间表示,BEV模型往往比以前的方法更稳定;
  2. BEV模型更容易受到对抗性噪声的影响,这主要是由冗余的BEV特征引起的;
  3. 相机-激光雷达融合模型在具有多模态输入的不同设置下具有优异的性能,但BEV融合模型仍然容易受到点云和图像的对抗性噪声的影响。

领域背景

自动驾驶系统对可靠的3D目标检测模型有很大的需求,该模型旨在预测目标的3D box和类别,以了解周围环境。为了提取3D空间中的整体表示,鸟瞰图(BEV)通常被用作统一表示,因为它既包含目标的位置又包含目标的语义特征,不受遮挡的影响,并且有望用于自动驾驶中的各种3D感知任务,如map restoration。尽管BEV表示被广泛用于激光雷达点云,但最近在multi-camera的3D检测中取得了巨大成功,由于相机的低成本和对图像中语义信息的更好利用,引起了工业界和学术界的极大关注。这些依赖视觉的BEV模型通常将2D图像特征投影到3D空间中的显式BEV特征图,并基于BEV特征进行预测。作为代表性模型BEVDet, BEVDepth和BEVFusion根据估计的深度图将2D特征分布到3D空间中,而BEVFormer则采用交叉注意力从2D图像中查询BEV特征。凭借纯BEV富有表现力的空间语义,这些模型在流行的基准测试(例如,nuScenes)上实现了最先进的结果!尽管性能优异,但由于鲁棒性问题,这些模型仍远未实际部署。先前的工作表明,深度学习模型容易受到对抗性示例、常见数据缺失和损坏等的影响,因此在部署之前必须评估和理解模型的鲁棒性。

本文从自然鲁棒性到对抗性鲁棒性的全面实验评估,系统地分析和理解具有代表性的视觉相关BEV模型鲁棒性,如图1(a)所示,得出以下几个重要发现:

  1. 首先评估了在常见损坏、各种天气和照明条件以及部分缺失相机的情况下的自然鲁棒性,论文发现由于BEV表示所携带的丰富空间信息,基于相机的BEV模型通常对图像的自然破坏更具鲁棒性;
  2. 然后评估了在全局对抗性扰动、实例级和类别级对抗性patch下的对抗性鲁棒性,观察到BEV模型更容易受到对抗性噪声的影响;
  3. 基于这些结果,论文发现由于多模态输入的帮助,相机激光雷达融合模型在所有设置下都具有优异的性能,此外,当同时施加点云和图像扰动时,BEVFusion的鲁棒性较差!

自己制作3D目标检测数据集_人工智能

除了数字对抗patch外,论文还提出了一种新的攻击方法,称为3D一致性patch attack。如图1(b)所示,为了在3D空间中的时空一致性,对抗性patch被附着到目标上。本文提供了两个3D一致性patch attack的案例研究,首先,在落入多个相机重叠区域的目标上粘贴patches ,这些目标从不同的角度以不同的形状观察。其次,为特定场景中连续帧序列上的目标生成时间通用patch,这比第一种情况更进一步。同时考虑了空间对齐和时间一致性,这将自动驾驶汽车的3D目标检测与传统的2D目标检测任务区分开来,这些结论与上述对抗性鲁棒性的结论一致,可以启发更多的工作来保证自动驾驶的安全。

视觉相关3D目标检测

3D目标检测对于自动驾驶汽车感知周围目标并因此在场景中安全导航非常重要,基于相机的方法由于其部署成本低,最近得到了广泛研究。相机输入也与相机激光雷达融合模型中的点云融合,以捕捉图像中丰富的语义信息和点云中的空间信息。从地图恢复中了解到,BEV可以作为3D感知任务环境的有效表示,提出了具有BEV表示的方法用于视觉相关检测器[25,26,31,32,35]。他们将2D图像特征投影到3D空间中的显式BEV特征图中,以便利用表达的空间信息执行更精确的3D目标检测。从2D到3D的转换因不同的方法而异,包括基于深度估计投影2D特征和通过交叉关注从3D空间查询2D特征,由于自动驾驶中的感知是在时间连续的帧序列上执行的,因此一些方法在当前帧中进行检测时会考虑先前帧的历史BEV特征,整体空间表示提高了视觉相关方法的性能。

目标检测的鲁棒性评估

鲁棒性一直是深度神经网络的一个关键问题,尤其是在自动驾驶等应用方面,研究表明,基于DNN的目标检测器可能容易受到多种威胁,包括2D或3D域中的对抗性示例、常见数据损坏等。特别是对于3D目标检测,已经有一些工作评估了基于激光雷达或融合模型的鲁棒性[2,39,43,49,60],然而,基于相机的3D目标检测器的鲁棒性,尤其是那些BEV表示尚未得到充分利用。

实验准备

在评估视觉相关BEV检测模型和非BEV检测模型的鲁棒性之前,首先介绍一些实验说明:使用nuScenes的验证集来研究7个现代3D目标检测器,如表1所示。其中,FCOS3D、BEVDet和BEVDepth是基于CNN的,而DETR3D、BEVFormer、TransFusion和BEVFusion在其架构中具有Transformer block。后两种是融合模型,与前面提到的仅相机的模型相比具有更好的性能,用于比较的模型被选择为具有相似数量的参数,因为较大的模型往往具有更好的鲁棒性。论文进一步排除了数据增强等训练技术的额外影响。



自己制作3D目标检测数据集_计算机视觉_02

Natural Robustness

本节首先评估了视觉相关模型在常见损坏、不同天气和照明条件以及局部相机下的自然鲁棒性,模型的自然鲁棒性是现实世界应用中的一个关键问题,这表明了其可靠性、稳定性和一致性!

1)常见的视觉Corruptions

动机和设置:在自动驾驶场景中,由于高速或传感器故障,可能会发生各种形式的视觉数据损坏,如噪音、模糊和数字失真,从而带来潜在的安全隐患风险。[22]中提出了四类主要的常见损坏,以评估图像分类器的鲁棒性。同样,本文分析了视觉相关BEV检测器在12种不同损坏下的性能,包括3级噪声、模糊和数字失真。在各种损坏下,模型在mAP和NDS方面的性能如表2所示。



自己制作3D目标检测数据集_人工智能_03

作者提出以下思考。首先,施加在图像上的损坏几乎不会影响TransFusion和BEVFusion的检测,点云中包含的互补信息使融合模型在图像破坏下具有鲁棒性。其次,与基于CNN的FCOS3D、BEVDet和BEVDetpth相比,具有Transformer块的方法对自然腐蚀更具鲁棒性,这一发现与先前研究中的结论一致,这些研究声称Transformers在图像分类中具有更好的鲁棒性。第三,除了融合模型之间的差异可以忽略不计外,与非BEV方法相比,纯相机BEV模型还有显著的优势,尤其是在模糊和数字失真的破坏方面。这表明BEV模型通常对图像损坏具有更好的自然鲁棒性,通过融合多视图信息的BEV表示对空间特征进行整体建模有助于实现这一优势!

2)天气和照明条件

自动驾驶通常会遇到不同的天气和照明条件,这可能会导致图像质量的损失以及数据分布的变化,并进一步导致性能下降。本文根据nuScenes中的注释,通过将数据集划分为4个子集,包括Day、Night、Sunny和Rainy,来分析模型在不同天气和光照条件下的性能。不同模型在不同天气和光照条件下的结果如表3所示。



自己制作3D目标检测数据集_目标检测_04

3)局部camera

动机和设置:具有BEV功能的多视图检测能够对周围环境进行全局感知,但当一些相机出现故障时,可能会出现数据不完整的问题。为了研究这种情况下的模型鲁棒性,本文考虑了落入相邻相机重叠区域的目标,即它们被多个相机捕获,因此由于BEV的全局表示,在没有一个视图的情况下检测目标是可行的。如图2(a)所示,在nuScenes中屏蔽了6个多视图相机中的3个非相邻相机,产生了2个设置:λ模式和Y模式。



自己制作3D目标检测数据集_目标检测_05

结果相应的NDS如图2(b)所示,对于部分相机,所有模型的检测性能都会不同程度地下降,具有部分相机输入和完整激光雷达输入的融合模型受到轻微影响。FCOS3D是一种单目检测器,由于它对单个图像进行检测,因此性能下降可以忽略不计。BEVFormer在两个指标方面优于DETR3D,这表明来自视觉输入的整体BEV表示有助于多视图重叠区域的空间建模。同时,λ模式下的度量普遍高于Y模式下的,这表明在这些相机之间的多视图检测中存在偏差,并且在前面的检测更好。

Adversarial Robustness

对抗性例子是由对手精心制作的噪声输入,以误导模型,它们有助于衡量最坏的性能,尤其是在恶意攻击的情况下。在本节中,通过最大化具有对抗性噪声的检测器的训练目标,进行了一系列经典的无目标对抗性攻击,以评估BEV方法的对抗性鲁棒性,本节中对抗性攻击的公式在附录A中介绍,作为背景指南。

1)l∞对抗扰动

方法[13,20,51]首先提出在合法的例子中添加人类无法察觉的小噪声,以诱导错误的模型输出,这种攻击方案使我们能够主要了解模型在数字空间中遇到小的恶意扰动时的行为。扰动的规模可以通过对抗性示例和干净输入之间的“p距离”来测量,这里使用“l∞范数”!

设置:论文采用两种典型的基于梯度的攻击方法,快速梯度符号法(FGSM)和投影梯度下降法(PGD),为每个模型生成l∞对抗性扰动。在l∞范数下,扰动的预算从0(clean)到8不等,PGD的迭代次数设置为10作为PGD10。

结果:本文在图3中显示了不同模型在攻击下的mAP和NDS曲线,总体而言,所有模型都在不同程度上受到对抗性噪声的影响,并且影响随着迭代次数的增加而增大。首先,融合模型的性能变化小于仅使用相机的模型。例如,在FGSM条件下,BEVFusion在\epsilon=8时的NDS与clean性能相比下降了10.0,而BEVFormer的NDS下降了30.6,这意味着融合模型对由于包括点云在内的多模态输入而施加在图像上的对抗性扰动更具鲁棒性。一个重要的结果是,在纯相机方法中,BEVFormer在干净的图像上实现了37.0的最高mAP。这说明尽管BEV模型在3D目标检测中具有更好的性能,但它们的对抗性鲁棒性较差。此外,注意到在FGSM攻击中出现4和8之后,一些模型的性能略有提高。我们将这种意外的增长归因于3D检测器的高度非线性loss ,对于较大的步长,生成的扰动可能无法跨越决策边界,从而导致较差的性能。

分析:为了进一步查明模型易受“l∞”扰动影响的根本原因,通过比较DETR3D和BEVFormer之间的行为进行了一些定性分析,这两种模型共享ResNet101的同一主干,并使用Transformer块来执行检测。当模型受到PGD10的攻击(=1)时,根据归一化均方误差(NMSE)统计计算ResNet101提取的图像特征的变化。DETR3D在200个样本上的NMSE为4.7488(σ=0.2863),而BEVFormer的NMSE则为4.8042(σ=0.02675),这表明对于两个不同的模型,对PGD10特征提取的影响是相似的。因此,对抗性鲁棒性的差异应该来自特征提取后的阶段,即BEVFormer的BEV建模。对受到攻击的特征图进行了定性分析,以研究模型易受攻击的原因,可视化的一个示例如图4所示。可以发现对抗性扰动会在没有目标的区域导致更大的激活,并进一步产生大量误报。由于BEV表示对整个3D空间进行建模,因此存在对抗性攻击破坏的冗余特征,这导致BEV模型的鲁棒性较差。



自己制作3D目标检测数据集_计算机视觉_06

点云扰动:尽管融合模型受图像扰动的影响较小,但它也暴露在图像和点云的对抗性噪声中。本文仍然采用PGD10,对图像和点云扰动采用4×4的”l∞“预算设计,如图5所示可以发现,在对图像扰动的鲁棒性和点云扰动之间存在权衡,当只施加图像扰动时,BEVFusion的鲁棒性不如TransFusion,但当只施加点云扰动时,它的鲁棒性更强。此外,当同时应用两种扰动时,BEVFusion往往更容易受到攻击。原因是BEVFusion更多地依赖于其pipeline中的图像输入,即,它将图像和点云特征聚合为整体BEV表示,以生成目标proposal,而TransFusion仅在其早期proposal阶段使用点云特征。因此,较大的图像扰动将进一步降低BEVFusion对点云扰动的对抗性鲁棒性,这也可以解释在先前的图像损坏情况下,与TransFusion相比,BEVFusion的性能稍差的原因。



自己制作3D目标检测数据集_目标检测_07

Transfer 攻击:对抗性示例被证明具有跨模型可转移性,这使得能够进行实际的黑盒攻击。本文进一步研究了对抗性示例在不同3D检测模型之间的可转移性,论文发现,在具有类似架构的模型之间,可转移性更好。

2)实例特定对抗patch

动机:由于逐像素修改,具有l_p扰动的对抗性示例对于物理攻击是不可行的,因此,研究了具有局部和可见扰动的patch攻击。在目标检测中,对抗性patch通常是屏蔽在受害目标上的图案。首先考虑特定于实例的对抗性patch,即对于每个帧,分别为每个视图下的每个单个目标生成对抗性patch。

设置:将2D面片的位置设置在从3D box的中心投影的2D位置,并且它们的大小与投影的2D box的大小成比例,比例不同,从1%到10%不等。Adam优化器以0.1的学习率分20 step优化每个帧的patch颜色。

结果:实例特定patch attack的结果如表4所示,随着尺寸比的增加,所有型号的性能都在不断下降。总的来说,结果显示了具有”l∞“对抗性扰动的类似趋势。融合模型仍然对局部对抗性噪声表现出更好的鲁棒性,此外,所有BEV方法的性能都比非BEV方法差,并且差距很大,尤其是对于没有transformer block(BEVDet,BEVDepth vs.FCOS3D)的纯camera模型和融合模型(BEVFusion vs.TransFusion)。由于逐帧attack设置仅与具有局部噪声的”l∞“扰动相区分,因此BEV模型具有类似的对抗性鲁棒性较差的结论是合理的,并且潜在的原因是相似的。



自己制作3D目标检测数据集_3d_08

3)特定类别的对抗性patch

动机:通用攻击通常被考虑在对抗性patch的背景下,因为当目标和模型不确定时,执行物理攻击更可行。考虑特定类别的对抗性补丁,对于数据集中的每一类对象,为其生成一个对抗性patch。

设置:为每个类别预先定义了一个100×100的patch,并在将其应用于目标时调整为适当的大小。Adam优化器在数据集上对patch颜色进行了3个epoch的优化,学习率为0.01。

结果:类似的设置但普遍攻击的情况下,从表5的结果中得出了类似的发现,即融合模型具有更好的鲁棒性,而BEV模型具有较差的鲁棒性。然而,出现了一个有趣的现象,即BEVFormer在应用类别级对抗性patch时比DETR3D具有更好的性能。一种可能的解释是,BEVFormer基于历史BEV特征进行预测,这抵消了数据集上梯度预期的计算,并使其更难进行通用攻击!



自己制作3D目标检测数据集_人工智能_09

3D一致性patch attack

考虑到自动驾驶中的3D目标检测涉及multi-camera相机和连续帧,本文提出了一种3D一致性 patch attack,该attack将对抗性patch应用于真实3D空间中的目标,这种attack考虑了3D一致性和对齐性,这更适合自动驾驶!

应用patch的过程是mask矩阵和2D图像之间的逐像素乘法,3D一致性patch attack需要应用函数A来将3D空间中的对抗性patch投影到相机的2D透视图。下面正式介绍A的过程,对于单个帧中的目标,将对应的对抗性patch粘贴到目标的指定3D位置,该patch在现实世界中的大小为Hp×Wp。给定GT 3D box的信息,可以计算粘贴的3D位置 corner,这些位置位于激光雷达坐标系中,由(p1,p2,p3,p4)表示,其中p_i∈R^3。对于每个相机视图,根据相机的固有参数,有一个投影矩阵M_{3d−2d}∈R^{4×4},并且激光雷达坐标中的3D点p=(xp,yp,zp)^T,可以投影到2d图像平面上的点p^l∈R^2.



自己制作3D目标检测数据集_自己制作3D目标检测数据集_10

然后,通过透视变换将patch 应用于由投影 corner(p01,p02,p03,p04)定义的四边形。使用投影矩阵A,[a,b,c,d,e,f,g,h]^T∈R^8的向量,并将目标四边形内的像素(h_t,w_t)投影回源Hp×Wp面片上的位置(hs,ws)



自己制作3D目标检测数据集_自己制作3D目标检测数据集_11

其中可以用对应的corner坐标来求解系数,然后,2D图像上(ht,wt)处的像素颜色可以在patch上(hs,ws)周围的相邻像素之间插值。

1)多视图Patch Attack

动机和Formulation:多视图检测是自动驾驶的一个独特特性,可以从不同的角度捕捉3D空间中的对抗性patch,从而在2D图像上变形为不同的形状。在这种情况下,三维面片会附着到多视图重叠区域中的目标上,patch的大小比例不同,其平面垂直于指向汽车的方向,多视图patch攻击是逐帧进行的,并形式化为:



自己制作3D目标检测数据集_目标检测_12

结果性能如表6所示,仅对重叠区域中的目标进行评估,融合模型在clean检测或3D一致性patch方面仍然优于仅使用相机的方法。BEV模型表现出对重叠区域的更好的检测,但在attack下的性能比非BEV的模型差。尽管对抗性噪声的形式已经改变为空间对齐的3D一致性patch,但攻击仍然是白盒的,并且逐帧执行。



自己制作3D目标检测数据集_目标检测_13

2)临时通用patch attack

动机和Formulation:帧到帧的时间连续性是自动驾驶系统中的另一个显著特性。前几节中考虑的大多数攻击设置都是针对单个帧的,没有考虑时间一致性。这里建议设置,其中对抗性patch被应用于在帧序列中出现的每个目标周围表面,并且这些patch在空间-时间上是一致的。对于第i个场景中的观测序列Si,attack被形式化为:



自己制作3D目标检测数据集_自己制作3D目标检测数据集_14

结果如表6所示,尽管融合模型具有令人印象深刻的性能,FCOS3D和TransFusion具有更好的对抗性鲁棒性,但发现BEVFormer在mAP和NDS方面至少优于DETR3D,在这种情况下表现出更好的鲁棒性,这类似于特定类别的patch攻击。这两种设置都需要跨类别中的实例或序列中的帧的通用噪声,因此BEVFormer更好的鲁棒性也应该来自历史BEV特征的时间依赖性。

参考

[1] Understanding the Robustness of 3D Object Detection with Bird’s-Eye-View Representations in Autonomous Driving. CVPR2023