1. 研究背景与意义
从RGB图中预测深度。利用二维图像来进行场景的深度估计是计算机视觉领域的经典问题之一,也是实现三维重建、场景感知的重要环节。深度信息有助于更好地理解3D场景,也有助于完成许多计算机视觉任务。如机器人定位、自动驾驶、三维重建、3D目标检测等;
来源:深度预测任务可以由专用硬件完成,如微软的测距仪和 Kinect 摄像头,但价格昂贵、场景有限,大多数图像都是由普通相机拍摄的,只含场景的颜色信息。为了重建深度信息,研究人员尝试直接从 RGB 图像中预测深度,这种方法与通过专业硬件设备获得深度信息相比,更具有普遍性。
做什么事情:从单张RGB图像中预测物体到相机的距离。
服务于什么:三维重建、3D目标检测、机器人定位、自动驾驶等其他任务。
问题:ill-posed(不满足解存在、解稳定、解唯一其中之一),因为无限多个三维场景可以投影到相同的2D场景。
由于激光雷达等设备较为昂贵,以及RGB图的广泛性与低成本,选择做单目有监督方向的深度预测;
单目深度估计在三维重建和感知中起关键作用。自(He et al,2016)的开创性工作以来,卷积神经网络(CNN)主导了深度估计的主要工作,其中设计了基于编解码器的架构(Fu et al,2018;Lee et al,2019;Bhat等,2021)。尽管已经有许多工作专注于解码器设计(Fu et al,2018;Bhat et al,2021),但最近的研究表明编码器对于准确的深度估计更为关键(Lee et al,2019;Ranftl)等人,2021)。由于缺乏深度线索,充分利用远程相关性(即对象之间的距离关系)和局部信息(即同一对象的一致性)是有效编码器的关键能力(Saxena等,2005)。因此,当前深度估计方法的潜在瓶颈可能在于编码器,其中卷积算子几乎不能用有限的感受野来模拟远程相关性(Ranftl等,2021)
深度预测有监督的研究现状
- 2014年,Eigen首次将深度学习引入深度预测。使用Deep CNN估计单幅图像的深度。两个分支以 RGB 图片作为输入,第一个分支网络粗略预测整张图像的全局信息,第二个分支网络细化预测图像的局部信息。
- 2015年,Eigen 团队基于上述工作,提出了一个统一的多尺度网络框架。使用了更深的基础网络 VGG,利用第3个细尺度的网络进一步增添细节信息,提高分辨率。
- 2016年,Liana首次用encoder-decoder结构。FCRN延续了FCN(全卷积网络)的特点,直接去掉了全连接层,取而代之的是一个新的上采样结构.整个网络可以看做是一个encoder-decoder的过程。
- 2018年,考虑到场景由远及近的特性,可以利用分类的思想。Cao 等人将深度估计问题看作像素级的分类问题。
- 2019年,Wofk: FastDepth,最先进的单视图深度估计算法是基于相当复杂的深度神经网络,无法在嵌入式平台上进行实时推断,例如,安装在微型飞行器上。讨论了嵌入式系统的快速深度估计问题。提出了一种高效、轻量级的编-解码器网络结构,并应用网络剪枝进一步降低计算复杂度和延迟。
- 2021年, Bhat,首个基于VIT的方法。