之所以写粗略篇主要是自己以前稍微看了一下,还有一点点印象,接下来会逐篇精读,希望得到更多的收获,纯干做笔记用,有问题大家可以指出来。
RCNN
基于Region Proposal的候选区域选择和边界回归(bounding-box regression) 得到精确的目标区域
算法分为三大步:
1)候选区域选择
Region Proposal是一类传统的区域提取方法,可以看作不同宽高的滑动窗口,通过窗口滑动获得潜在的目标图像,关于Proposal大家可以看下SelectiveSearch,一般Candidate选项为2k个即可,这里不再详述;根据Proposal提取的目标图像进行归一化,作为CNN的标准输入。
2)CNN特征提取
标准CNN过程,根据输入进行卷积/池化等操作,得到固定维度的输出;
3)分类与边界回归
实际包含两个子步骤,一是对上一步的输出向量进行分类(需要根据特征训练分类器);二是通过边界回归(bounding-box regression) 得到精确的目标区域,由于实际目标会产生多个子区域,旨在对完成分类的前景目标进行精确的定位与合并,避免多个检出。
RCNN存在三个明显的问题:
1)多个候选区域对应的图像需要预先提取,占用较大的磁盘空间;
2)针对传统CNN需要固定尺寸的输入图像,crop/warp(归一化)产生物体截断或拉伸,会导致输入CNN的信息丢失;
3)每一个ProposalRegion都需要进入CNN网络计算,上千个Region存在大量的范围重叠,重复的特征提取带来巨大的计算浪费。
SPP-Net
空间金字塔池化(SpatialPyramid Pooling )
SPP-Net在RCNN的基础上做了实质性的改进:
1)取消了crop/warp图像归一化过程,解决图像变形导致的信息丢失以及存储问题;
2)采用空间金字塔池化(SpatialPyramid Pooling )替换了 全连接层之前的最后一个池化层(如上图)。
为了适应不同分辨率的特征图,定义一种可伸缩的池化层,不管输入分辨率是多大,都可以划分成m*n个部分。这是SPP-net的第一个显著特征,它的输入是conv5特征图 以及特征图候选框
尽管SPP-Net贡献很大,仍然存在很多问题:
和RCNN一样,训练过程仍然是隔离的,提取候选框 | 计算CNN特征| SVM分类 | Bounding Box回归独立训练,大量的中间结果需要转存,无法整体训练参数;
SPP-Net在无法同时Tuning在SPP-Layer两边的卷积层和全连接层,很大程度上限制了深度CNN的效果;
在整个过程中,Proposal Region仍然很耗时。
Fast-RCNN
1)亮点1 - 借鉴SPP思路,提出简化版的ROI池化层(注意,没用金字塔),同时加入了候选框映射功能,使得网络能够反向传播,解决了SPP的整体网络训练问题;
2)亮点2 - 多任务Loss层
A)SoftmaxLoss代替了SVM,证明了softmax比SVM更好的效果;
B)SmoothL1Loss取代Bouding box回归。
将分类和边框回归进行合并(又一个开创性的思路),通过多任务Loss层进一步整合深度网络,统一了训练过程,从而提高了算法准确度。
3)全连接层通过SVD加速
这个大家可以自己看,有一定的提升但不是革命性的。
结合上面的改进,模型训练时可对所有层进行更新,除了速度提升外(训练速度是SPP的3倍,测试速度10倍),得到了更好的检测效果(VOC07数据集mAP为70,注:mAP,mean Average Precision)。
Faster-RCNN
提取候选框最常用的SelectiveSearch方法,提取一副图像大概需要2s的时间,改进的EdgeBoxes算法将效率提高到了0.2s。
候选框提取不一定要在原图上做,特征图上同样可以,低分辨率特征图意味着更少的计算量,基于这个假设,MSRA的任少卿等人提出RPN(RegionProposal Network),通过添加额外的RPN分支网络,将候选框提取合并到深度网络中,这正是Faster-RCNN里程碑式的贡献。
RPN网络的特点在于通过滑动窗口的方式实现候选框的提取,每个滑动窗口位置生成9个候选窗口(不同尺度、不同宽高),提取对应9个候选窗口(anchor)的特征,用于目标分类和边框回归,与FastRCNN类似。
目标分类只需要区分候选框内特征为前景或者背景。
边框回归确定更精确的目标位置,基本网络结构如下图所示:
训练过程中,涉及到的候选框选取,选取依据:
1)丢弃跨越边界的anchor;
2)与样本重叠区域大于0.7的anchor标记为前景,重叠区域小于0.3的标定为背景;
对于每一个位置,通过两个全连接层(目标分类+边框回归)对每个候选框(anchor)进行判断,并且结合概率值进行舍弃(仅保留约300个anchor),没有显式地提取任何候选窗口,完全使用网络自身完成判断和修正。
从模型训练的角度来看,通过使用共享特征交替训练的方式,达到接近实时的性能,交替训练方式描述为:
1)根据现有网络初始化权值w,训练RPN;
2)用RPN提取训练集上的候选区域,用候选区域训练FastRCNN,更新权值w;
3)重复1、2,直到收敛。
因为Faster-RCNN,这种基于CNN的real-time 的目标检测方法看到了希望,在这个方向上有了进一步的研究思路。至此,我们来看一下RCNN网络的演进,如下图所示:
Faster RCNN的网络结构(基于VGG16):
YOLO
Region Proposal 过程的优点是能够初步检测有效的 Candidate,缺点是带来效率的降低(Faster构造了两级网络)。YOLO去掉了 Faster的 RPN 过程,直接预测物体的种类和位置。这是一个里程碑似的 Idea!
YOLO 将目标的分类与定位进行合并,将对应位置的信息 通过网络,对应到最后面的 7*7的格子上,每个格子对应一个30维的向量,分别代表 分类与定位信息。对应图中 30维向量 = (B*5 + C),B是每个Grid对应Bound Box数量,Paper中值为2,C为分类数,值为20。
YOLO 网络图参考如下:
SSD
1)开山绝技 - 多尺度
这是对YOLO最大的改进,也是本算法的核心。YOLO基于最后一张 Feature Map(特征图)进行提取和分类,某些细节特征的丢失导致精度下降和小目标遗漏。SSD 在多个尺度(Feature Map)上进行了回归,低层的 feature map 蕴含更多的信息,有利于细节保留 及 训练误差回传,提高了精度及小目标的适应能力。
2)拿来主义 - 宽高比和Anchor
SSD 借鉴了 Faster的锚 ,假定以目标中心作为Location,以该中心以不同宽高比进行 Rect 扩展(1:1 1:2 2:1),再结合三种不同尺度,这样我们就得到了9种不同的Scale(不考虑太特殊的比例)。
不同的Aspect Ratio & Scale 对预测目标进行覆盖,对于每一个feature map来讲,每个Grid Cell对应多个 Predict Boxes,我们假设为K(对应上面K=9,3种尺度*3种宽高比),所有中心落在该Grid的目标,都由该Grid进行回归Predict。
So 我们需要预测的结果就是:这K个Box每个对应的 分类(概率,C种)和 相对默认Rect的偏移(Offset,4个):
Fature Map Grid => (C+4)*K
对于一张 m*n 大小的 Feature Map,能够得到 m*n * (C+4)*K个输出结果(SSD 中默认使用了 6 个 default boxes)。
YOLOv2
基于V1改进的Trick:
A)Batch Normalization(批量规范化)
先建立这样一个观点: 对数据进行预处理(统一格式、均衡化、去噪等)能够大大提高训练速度,提升训练效果。
批量规范化 正是基于这个假设的实践,对每一层输入的数据进行加工。
Batch Normalization,简称 BN,由Google提出,是指对数据的 归一化、规范化、正态化。BN 作为近几年最火爆的Trick之一,主流的CNN都已集成。
该方法的提出基于以下背景:
1)神经网络每层输入的分布总是发生变化,通过标准化上层输出,均衡输入数据分布,加快训练速度;
可以设置较大的学习率和衰减,而不用去care初始参数,BN总能快速收敛,调参狗的福音。
2)通过规范化输入,降低激活函数在特定输入区间达到饱和状态的概率,避免 gradient vanishing 问题;
举个例子:0.95^64 ≈ 0.0375 计算累积会产生数据偏离中心,导致误差的放大或缩小。
3)输入规范化对应样本正则化,在一定程度上可以替代 Drop Out;
Drop Out的比例也可以被无视了,全自动的节奏。
BN 的做法是 在卷积池化之后,激活函数之前,对每个数据输出进行规范化(均值为 0,方差为 1)。
第一部分是 Batch内数据归一化(其中 E为Batch均值,Var为方差),Batch数据近似代表了整体训练数据。
第二部分是亮点,即引入 附加参数 γ 和 β(Scale & Shift),Why? 因为简单的归一化 相当于只使用了激活函数中近似线性的部分(如下图红色虚线),破坏了原始数据的特征分布,这会降低模型表达能力。
B)High Resolution Classifier
YOLO 对应训练过程分为两步,第一步是通过 ImageNet 训练集 进行高分辨率的预训练,这一步训练的是分类网络;第二步是训练检测网络,是在分类网络的基础上进行 fine tune。
之前的 YOLO v1以分辨率224*224训练分类网络,YOLO v2 将分类网络的分辨率提高到 448*448,高分辨率样本对于效果有一定的提升(文中mAp提高了约4%)。
C)New Network(新网络)
为保证后续 Anchor Boxes 讲解的连续性,这里将New Network提前。
作者对网络进行了改进:
1)不同于SSD的VGG-16网络,作者采用的基础网络是Googlenet,并且加入了自己的订制,来看数据对比:
Googlenet vs VGG-16
前向传播运算量(次) 85.2亿次 306.9亿次
精度(224*224) 88% 90%
整体来看,VGG-16整体精确度较高,但计算量过于复杂,性价比不高。
2)YOLO v2采用了常用的3 * 3卷积核,在每一次池化操作后把通道数翻倍。借鉴了network in network的思想,网络使用了全局平均池化(global average pooling)做预测,把1 * 1的卷积核置于3 * 3的卷积核之间,用来压缩特征。
YOLO v2包含19个卷积层、5个最大值池化层(max pooling layers )。
D)Convolutional With Anchor Boxes
Faster的 Anchor 机制又一次得到印证,与SSD一样,Anchor建立了和原始坐标的对应关系:
定义了不同的Scale和宽高比,一个中心对应K个不同尺度和宽高比的Boxes。
YOLO v1: S*S* (B*5 + C) => 7*7(2*5+20)
其中B对应Box数量,5对应 Rect 定位+置信度。
每个Grid只能预测对应两个Box,这两个Box共用一个分类结果(20 classes),
这是很不合理的临时方案,看来作者为第二篇论文预留了改进,没想被 SSD 抢了风头。
YOLO v2: S*S*K* (5 + C) => 13*13*9(5+20)
分辨率改成了13*13,更细的格子划分对小目标适应更好,再加上与Faster一样的K=9,计算量增加了不少。
通过Anchor Box改进,mAP由69.5下降到69.2,Recall由81%提升到了88%。
SSD(-): S*S*K*(4 + C) => 7*7*6*( 4+21 )
对应C=21,代表20种分类类别和一种 背景类。
生成式对抗网络(Generative adversarial nets)
对抗网络的核心是 对抗式(adversarial),两个网络互相竞争,一个负责生成样本(Generator),另一个负责判别样本(Discriminator)。
生成模型 像 “一个造假团伙,试图生产和使用假币”,而 判别模型 像 “检测假币的警察”。生成器(generator)试图欺骗判别器(discriminator),判别器 则努力不被 生成器 欺骗。模型经过交替优化训练,两种模型都能得到提升,直到到达一个“假冒产品和真实产品无法区分”的点。
一. 使用对抗网络
大多数情况下,对抗网络作为非监督学习的代表,将无监督问题转化为有监督问题,两个方面解释:
1. 生成对抗样本
对抗样本跟生成式对抗网络没有直接的关系,所谓 对抗样本,是个很有意思的事情,我们来看看论文里的例子:
通过添加噪声,在原样本基础上进行变换,得到的样本发生了微妙的变化,将“panda”错判成 “gibbon”。相信大家一定接触过 Data Augmentation,为什么同样是添加噪声,得到的结果却是迥然不同呢?实际上是我们在梯度方向上做了一点非常小的变化,导致模型就无法正确的分类。
2. 对抗网络
对抗样本说明了一个问题,我们训练的分类器并没有对模型进行有效描述,或者说没有学习到数据的一些内部表达或者分布,只是 “恰巧” 通过 某些特定的特征 完成了分类而已。
需要做的是更深层次的挖掘,比如:
a)进一步将 真数据和各种各样的 Data Augmentation的样本判别为正样本;
b)进一步将各种 伪造数据 判别为Fake;
c)根据上一步的Fake参数,进一步提高 伪造数据的逼真度;