卷积神经网络—目标检测回归损失函数

原创

SongpingWang 2018-08-05 21:28:01 博主文章分类：深度学习 ©著作权

文章标签 momentum代码损失函数目标检测 github 文章分类 神经网络人工智能

©著作权归作者所有：来自51CTO博客作者SongpingWang的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

一、Smooth L1 Loss
二、IoU Loss
三、GIoU Loss
四、DIoU Loss
五、CIoU Loss

目标检测任务的损失函数由

Classificition Loss和

Bounding Box Regeression Loss两部分构成。

本文介绍目标检测任务中近几年来Bounding Box Regression Loss Function的演进过程，其演进路线是 Smooth L1 Loss

$卷积神经网络—目标检测回归损失函数_损失函数$ IoU Loss

$卷积神经网络—目标检测回归损失函数_损失函数$ GIoU Loss

$卷积神经网络—目标检测回归损失函数_损失函数$ DIoU Loss

$卷积神经网络—目标检测回归损失函数_损失函数$ CIoU Loss

整个优化路程：围绕在GT与预测的去重上，生成推荐框的过程。从开始只开率两种框的简单交并比，到，在上一种方法上依次逐渐增加考虑因素：

【 IoU Loss】将4个坐标点当成整体，

【 GIoU Loss】两个相交框的交并比与两个框的外接矩形的关系（两个相交框的方式），

【DIoU Loss】两个相交框重叠面积和中心点距离，

【CIoU Loss】(complete IoU loss)完全考虑重叠面积-中心点距离-长宽比。

卷积神经网络—目标检测回归损失函数_目标检测_05

一、Smooth L1 Loss

Fast RCNN论文提出该方法，假设 $卷积神经网络—目标检测回归损失函数_目标检测_06$ 为预测框和真实框之间的数值差异，常用的 L1和L2 Loss以及smoothL1定义为：
$卷积神经网络—目标检测回归损失函数_损失函数_07$
上述的3个损失函数对 $卷积神经网络—目标检测回归损失函数_目标检测_06$ 的导数分别为：
$卷积神经网络—目标检测回归损失函数_momentum代码_09$
从损失函数对x的导数可知： L1 损失函数对 x 的导数为常数，在训练后期，x很小时，如果learning rate 不变，损失函数会在稳定值附近波动，很难收敛到更高的精度。 L2 损失函数对x的导数在x值很大时，其导数也非常大，在训练初期不稳定。 $卷积神经网络—目标检测回归损失函数_momentum代码_10$ 完美的避开了 L1和 L2损失的缺点。

卷积神经网络—目标检测回归损失函数_momentum代码_11

实际目标检测框回归任务中的损失loss为：
$卷积神经网络—目标检测回归损失函数_损失函数_12$
其中 $卷积神经网络—目标检测回归损失函数_损失函数_13$ 表示 GT 框坐标， $卷积神经网络—目标检测回归损失函数_momentum代码_14$

1 、上面的三种Loss用于计算目标检测的Bounding Box Loss时，独立的求出4个点的Loss，然后进行相加得到最终的Bounding Box Loss，这种做法的假设是4个点是相互独立的，实际是有一定相关性的

2 、实际评价框检测的指标是使用IOU，这两者是不等价的，多个检测框可能有相同大小的smooth Loss，但IOU可能差异很大，为了解决这个问题就引入了 IOU Loss。

二、IoU Loss

本文由旷视提出，发表于2016 ACM,【论文地址】

2.1 通过4个坐标点独立回归Building boxes的缺点：

检测评价的方式是使用IoU,而实际回归坐标框的时候是使用4个坐标点，如下图所示，是不等价的；L1或者L2 Loss相同的框，其IoU 不是唯一的
通过4个点回归坐标框的方式是假设4个坐标点是相互独立的，没有考虑其相关性，实际4个坐标点具有一定的相关性
基于L1和L2的距离的loss对于尺度不具有不变性

卷积神经网络—目标检测回归损失函数_github_15

图(a)中的三组框具有相同的L2 Loss，但其IoU差异很大；图（b）中的三组框具有相同的L1 Loss,但IoU 同样差异很大，说明L1,L2这些Loss用于回归任务时，不能等价于最后用于评测检测的IoU.

2.2 基于此提出IoU Loss,其将4个点构成的box看成一个整体进行回归：

卷积神经网络—目标检测回归损失函数_momentum代码_16

上图中的红色点表示目标检测网络结构中Head部分上的点（i,j），绿色的框表示Ground truth框, 蓝色的框表示Prediction的框，IoU loss的定义如上，先求出2个框的IoU，然后再求个-ln(IoU)，实际很多是直接定义为IoU Loss = 1-IoU

卷积神经网络—目标检测回归损失函数_损失函数_17

三、GIoU Loss

本文由斯坦福学者提出，发表于CVPR2019【论文地址】，【github项目地址】

IoU Loss 有2个缺点：

当预测框和目标框不相交时，IoU(A,B)=0时，不能反映A,B距离的远近，此时损失函数不可导，IoU Loss 无法优化两个框不相交的情况。
假设预测框和目标框的大小都确定，只要两个框的相交值是确定的，其IoU值是相同时，IoU值不能反映两个框是如何相交的。

卷积神经网络—目标检测回归损失函数_目标检测_18

卷积神经网络—目标检测回归损失函数_目标检测_19

GIoU的性质

GIoU和IoU一样，可以作为一种距离的衡量方式： $卷积神经网络—目标检测回归损失函数_momentum代码_20$
GIoU具有尺度不变性
对于 $卷积神经网络—目标检测回归损失函数_github_21$ ,：

有 $卷积神经网络—目标检测回归损失函数_github_22$ 且 $卷积神经网络—目标检测回归损失函数_损失函数_23$ ,因此 $卷积神经网络—目标检测回归损失函数_损失函数_24$ 当 $卷积神经网络—目标检测回归损失函数_损失函数_25$

当 A 和 B 不相交时，GIoU(A,B) = -1

四、DIoU Loss

本文发表在AAAI 2020，【论文地址】【github地址】

GIoU Loss不足

卷积神经网络—目标检测回归损失函数_目标检测_26

当目标框完全包裹预测框的时候，IoU和GIoU的值都一样，此时GIoU退化为IoU, 无法区分其相对位置关系；此时作者提出的DIoU因为加入了中心点归一化距离，所以可以更好地优化此类问题。

启发点:

基于IoU和GIoU存在的问题，作者提出了两个问题：

第一：直接最小化预测框与目标框之间的归一化距离是否可行，以达到更快的收敛速度。
第二：如何使回归在与目标框有重叠甚至包含时更准确、更快。

好的目标框回归损失应该考虑三个重要的几何因素：重叠面积，中心点距离，长宽比。基于问题一，作者提出了DIoU Loss,相对于GIoU Loss收敛速度更快，该Loss考虑了重叠面积和中心点距离，但没有考虑到长宽比；针对问题二，作者提出了CIoU Loss，其收敛的精度更高，以上三个因素都考虑到了。

Distance-IoU Loss

通常基于IoU-based的loss可以定义为 $卷积神经网络—目标检测回归损失函数_momentum代码_27$ ，其中 $卷积神经网络—目标检测回归损失函数_损失函数_28$ 定义为预测框 $卷积神经网络—目标检测回归损失函数_github_29$ 和目标框 $卷积神经网络—目标检测回归损失函数_损失函数_30$
DIoU中的惩罚项表示为： $卷积神经网络—目标检测回归损失函数_目标检测_31$

其中 $卷积神经网络—目标检测回归损失函数_momentum代码_32$ 分别表示 $卷积神经网络—目标检测回归损失函数_目标检测_33$
$卷积神经网络—目标检测回归损失函数_momentum代码_34$ 表示欧式距离，
$卷积神经网络—目标检测回归损失函数_github_35$ 表示 $卷积神经网络—目标检测回归损失函数_目标检测_33$ 的最小外界矩形的对角线距离，如下图所示。可以将DIoU替换IoU用于NMS算法当中，也即论文提出的DIoU-NMS,实验结果表明有一定的提升。

DIoU Loss function定义为： $卷积神经网络—目标检测回归损失函数_损失函数_37$

卷积神经网络—目标检测回归损失函数_目标检测_38

上图中绿色框为目标框，黑色框为预测框，灰色框为两者的最小外界矩形框，d表示目标框和真实框的中心点距离，c表示最小外界矩形框的距离。

DIoU的性质：

尺度不变性
当两个框完全重合时， $卷积神经网络—目标检测回归损失函数_损失函数_39$ ,当2个框不相交时 $卷积神经网络—目标检测回归损失函数_目标检测_40$
DIoU Loss可以直接优化2个框直接的距离，比GIoU Loss收敛速度更快
对于目标框包裹预测框的这种情况，DIoU Loss可以收敛的很快，而GIoU Loss此时退化为IoU Loss收敛速度较慢

五、CIoU Loss

【论文地址】，【github地址】

Complete-IoU Loss

CIoU的惩罚项是在 DIoU 的惩罚项基础上加了一个影响因子 $卷积神经网络—目标检测回归损失函数_损失函数_41$ ，这个因子把预测框长宽比拟合目标框的长宽比考虑进去。

$卷积神经网络—目标检测回归损失函数_github_42$
其中 $卷积神经网络—目标检测回归损失函数_github_43$ 是用于做trade-off的参数， $卷积神经网络—目标检测回归损失函数_损失函数_44$
$卷积神经网络—目标检测回归损失函数_momentum代码_45$ 是用来衡量长宽比一致性的参数，定义为： $卷积神经网络—目标检测回归损失函数_目标检测_46$