今天我们要迎来了一篇最有意思的论文了,作者写的非常随性,但是这一版的YOLO却非常的惊艳,我当初是因为看了YOLOV3在憨豆电影的效果喜欢上了CV,哈哈,没想到作者这么随行!YOLOV3在22ms的时间内达到了28.2mAP,与SSD的精度差不多但是比它快了3倍。这就是YOLOV3的优势,在精度和速度上达到了一个完美的trade-off,至少现在是完美的!
算法总览
相比于YOLOV2,YOLOV3需要解决的问题就是小目标检测不准的问题和模型提速的问题,可以通过上图看到,YOLOV3在速度和精度的折中效果特别好,在保持速度的同时精度达到了一个可以接受的情况。延续了YOLOV2的边框聚类和BB回归的操作,那么他到底改进了什么呢?我们一起来看看!先看一个整体框图:
这是YOLOV3的网络结构,除了在网络中加入残差模块,还吸收了SSD和DSSD的优点,如多尺度检测和反卷积增强特征。我觉得更像FPN的思路,但还有不同,作者对一个高层的特征层进行上采样后,这样就与前一层的尺度一致了,这里我们使用concatention进行高层和底层的连接,然后经过一个卷积层做检测,而FPN则是相加,增强语义信息。这样就使得小目标的检测变得效果非常好。
网络结构
加入了残差模块,这样就可以提取更好的语义特征!网络效果如下:
通过上图,可以看出,还是我凯明大佬的ResNet牛,这是至今提取特征最牛的网络了,我所知道的,哈哈~~当然作者也不差,这也就是YOLOV3精度高的原因,因为提取的特征更好了,所以精度自然就上去了!
Anchor数量
YOLOV2的anchor只有5个,并且在同一个尺度的特征层上进行检测,所以并不是太好,但是过多的anchor又对速度有很大的影响,作者在YOLOV3做了稍微的增加,使用了9个anchor,大小分别为(10×13),(16×30),(33×23),(30×61),(62×45),(59× 119),(116×90),(156×198),(373×326).
其他
- 作者还尝试了Focal Loss,但是使得模型降低了2%的mAP,作者猜想可能是由于YOLOV3的 Loss函数中已经有了目标区域的概率损失,所以有了鲁棒性!或者其他原因
最后,这能这篇文章讲的不是太清楚,但原论文就不清楚,作者好随意,所以想要真正了解YOLOV3,看源码把,没有别的办法~~作者在最后还唠叨为甚么改变old detection metric.作者还呼吁科技不能做那些可怕的事情!
算法总结
牛逼!!!