目标检测入门知识

目录

目标检测入门知识

目标检测任务与描述

1.目标检测算法分类

2.目标检测的任务

3.目标定位的简单实现思路

4.两种Bounding Box名称

R-CNN

1.目标检测Overfeat模型

2. 目标检测R-CNN模型

3. 评价指标


目标检测任务与描述

1.目标检测算法分类

  • 两步走的目标检测
  1. 先找出候选的一些区域

                    2.对区域进行调整分类

  • 端到端的目标检测
  1. 采用一个 网络一步到位
  2. 输入图片,输出有哪些物体,物体在哪些位置

2.目标检测的任务

  • 输入:图片
  • 输出:物体类别,物体的位置坐标
  • (xmin,ymin),(xmax,ymax):物体的左上角、右下角坐标

3.目标定位的简单实现思路

  • 衡量网络的损失
  • 分类的概率可以使用交叉熵损失衡量
  • 位置信息具体的数值,可使用MSE均分误差损失(L2损失)

4.两种Bounding Box名称

  • Ground-truth bounding box:GT bbox 图片真实目标位置(标记结果)

  • Predicted bounding box:预测的时候标记


  • 分类与定位:图片中只有一个物体需要检测

  • 目标检测:图片中有多个物体需要检测

R-CNN

1.目标检测Overfeat模型

1.1滑动窗口

  • 目标检测的暴利方法是从左到右,从上到下滑动窗口,利用分类识别目标。

    • 为了在不同观察距离处检测不同的目标类型,我们使用不同大小和宽高比的窗口。如下所示:

最新目标检测算法最新 目标检测如何入门_深度学习



注:这样就变成每张图片输出类别以及位置,变成分类问题。

但是滑动窗口需要初始设定一个固定大小的窗口,这就遇到一个问题,有些物体适应的框不一样

  • 所以需要提前设定K个窗口,每个窗口滑动提取M个,总共K x M个图片,通常直接将图像变形转换成固定大小的图像,变形图像块被输入CNN分类器中,提取特征后,我们使用一些分类器识别类别和该边界框的另一个线性回归器。

最新目标检测算法最新 目标检测如何入门_特征向量_02



Overfeat模型总结:这种方法类似一种暴利穷举的方式,会消耗大量的计算力量,并且由于窗口大小问题可能造成效果不准确。所以下面提供另外一种解决目标检测问题的思路——R-CNN

2. 目标检测R-CNN模型

  • 不使用暴利破解的方法,而是使用候选区域方法(region proposal method),创建目标检测的区域,这改变了图像领域实现物体检测的模型思路(以R-CNN为基点,后续的SPPNet、Fast R-CNN 、Faster R-CNN模型都是照着这个物体检测思路)

最新目标检测算法最新 目标检测如何入门_特征向量_03



  • R-CNN步骤(以AlexNet网络为基准)

    1. 找出图片可能存在目标的候选区域region proposal(默认对一张图片找出2000个候选区域)

    2. 将候选区域调整,为了适应AlexNet网络的输入图像的大小227 x 227,通过CNN对候选区域提取特征向量,2000个建议框的CNN特征组合成网络AlexNet最终输出:2000 x 4096维矩阵

    3. 将2000 x 4096维特征经过SVM分类器(20种分类,SVM是二分类器,则有20个SVM, 以前不用神经网络分类器,通常用SVM分类器),获得2000 x 20种类别矩阵

    4. 分别对2000 x 20维矩阵中进行非极大值抑制(NMS:non-maximum suppression)剔除重叠建议框,得到与目标物体评分最高的一些建议框

    5. 修正bbox,对bbox做回归微调

2.1 候选区域由Region of interest(ROI)得出

Selective Search在一张图片上提取出来约2000个候选区域需要注意的事这些候选区域的长宽不固定。而使用CNN(这里指的是AlexNet网络)提取候选区域的特征向量,需要接受固定长度的输入,所以需要对候选区域做一些尺寸上的修改。

2.2 CNN网络提取特征

在候选区域(调整过的适合AlexNet输入的大小的候选区:227 x 227)的基础上提取出更高级、更抽象的特征,这些高级特征是作为下一步的分类器、回归的输入数据

最新目标检测算法最新 目标检测如何入门_最新目标检测算法最新_04



提取的这些特征将会保存在磁盘当中(这些提取的特征才是真正的要训练的数据)

2.3 特征向量的训练分类器SVM

  • 假设一张图片的2000个候选区域,那么提取出来的就是2000 x 4096这样的特征向量(R-CNN中默认CNN层输出4096特征向量)

  • R-CNN选用SVM进行二分类。假设检测20个类别,那么就会提供20个不同类别的SVM分类器,每个分类器都会对2000个候选区域的特征向量分别判断一次,这样得出[2000,20]的得分矩阵,如下图所示

最新目标检测算法最新 目标检测如何入门_最新目标检测算法最新_05



2.4 非极大抑制(NMS)

  • 目的

    • 筛选候选区域,目标是一个物体只保留最优的框,来抑制那些冗余的框

  • 迭代过程

    • 对于所有的2000个候选区域得分进行概率筛选,只保留概率大于0.5的候选区域

    • 剩余的候选框

      • 假设图片的真实个数为2(N),筛选之后候选框为5(P),计算N中每个物体位置与所有P的交并比IOU计算,得到P中候选框IOU最高的一个。如下图,A、C候选框对应左边的车辆,B、D、E对应右边的车辆。粉色的框代表GT(ground truth:物体的真实标记位置),则左边A候选框跟GT交并比的分数最高为0.8,右边同理B最高为0.9。

最新目标检测算法最新 目标检测如何入门_计算机视觉_06



假设现在滑动窗口有:A、B、C、D、E 5个候选框

  • 第一轮:对于右边车辆,假设B的得分最高(与GT的IOU为0.8),删除与B的IOU > 0.5候选框(D与B的IOU为0.6,E与B 的IOU为0.7),则删除D、E,B作为一个预测结果

  • 第二轮:对于左边车辆,A的得分最高,则C与A计算IOU,结果>0.5,删除C,A作为一个结果

最终在这5个中检测除了两个目标A和B,则每一个GT都有一个候选框预测

SS(Selective Search)算法得到的物体位置已经固定了,但是我们筛选出的位置不一定就是特别准确,需要对A和B进行最后的修正

2.5 修正候选框

通过非极大值抑制筛选出来的候选框不一定非常准确怎么办?R-CNN提供了一个方法,建立一个bbox regressor

  • 回归用于修正筛选后的候选区域,使之回归于ground-truth,默认认为这两个框是线性关系,应为在最后筛选出来的候选区域和ground-truth很接近了

修正过程(线性回归)

最新目标检测算法最新 目标检测如何入门_计算机视觉_07



3. 评价指标

3.1 IOU交并比

最新目标检测算法最新 目标检测如何入门_最新目标检测算法最新_08




  • IOU(交并比)

    • 两个区域的重叠程度overlap:候选区域和标定区域的IOU值

最新目标检测算法最新 目标检测如何入门_深度学习_09



相交的值比较小,NMS过滤条件给的不严格

3.2 平均精确率(mean average precision)map

目标检测中衡量识别精度的指标

多个类别目标检测中,每个类别都可以根据recall(召回率)和percision(准确率)绘制一条曲线。AP就是该曲线下的面积,mAP意思是对每一类的AP再求平均