任务简介

计算机视觉中关于图像识别有四大类任务:分类,定位,检测,分割。目标检测(Object Detection)是一个分类、回归问题的叠加,有以下核心问题:

  1. 分类问题:即图片(或某个区域)中的图像属于哪个类别。
  2. 定位问题:目标可能出现在图像的任何位置。
  3. 大小问题:目标有各种不同的大小。
  4. 形状问题:目标可能有各种不同的形状。

数据集

Pascal VOC
ImageNet
  • 简介:ImageNet Large Scale Visual Recognition Challenge(ILSVRC)已经将一般的目标检测向前推进了一大步。ILSVRC从2010到2017年每年被组织比赛,其中就包含了用ImageNet图像进行检测。ILSVRC中包含了200类视觉目标,图像和目标实例的数量比VOC大两个数量级。例如,ILSVRC-14就包含了517K张图像和534k被标注的目标。
  • 官网:ImageNet
  • 论文:https://arxiv.org/pdf/1409.0575.pdf
  • 下载地址:ImageNet
  • 天池下载地址:ImageNet_数据集-阿里云天池
MS-COCO
  • 简介:MS-COCO是目前最具有挑战性的目标检测,从2015年开始,每年都会举办基于MS-COCO数据集的竞赛,其包含的目标种类要少于ILSVRC,但其有更多的目标实例。例如,MS-COCO-17中包含了164k张图像和897K个被标注来自80个类别的目标。相比于VOC和ILSVRC,MS-COCO最大的进步,除了boundingbox的标注,还有单个实例分割的标注,帮助更准确的定位。另外,MS-COCO包含了更多小目标(其面积小于图像的1%)和更加密集的定位目标比VOC和ILSVRC。MS-COCO的这些特征让其目标分布更接近于真实的世界。MS-COCO已经在目标检测社区变为了实际的标杆。
  • 官网:COCO - Common Objects in Context
  • 论文:https://arxiv.org/pdf/1405.0312.pdf
  • GitHub:https://github.com/cocodataset/cocoapi
  • 下载地址:COCO - Common Objects in Context
  • 天池下载地址:MS-COCO_数据集-阿里云天池
Open Images
DOTA
  • 简介:DOTA是遥感航空图像检测的常用数据集,包含2806张航空图像,尺寸大约为4k^4k,包含15个类别共计188282个实例,其中14个主类,small vehicle和large vehicle都是vehicle的子类。其标注方式为四点确定的任意形状和方向的四边形。航空图像区别于传统数据集,有其自己的特点,如:尺度变化性更大;密集的小物体检测;检测目标的不确定性。数据划分为1/6验证集,1/3测试集,1/2训练集。DOTA目前发布了训练集和验证集,图像尺寸从800*800到4000^4000不等。
  • 官网:DOTA
  • 论文:https://arxiv.org/pdf/1711.10398.pdf
  • GitHub:https://github.com/dingjiansw101/AerialDetection
  • 下载地址:DOTA
  • 天池下载地址:DOTA_数据集-阿里云天池
Stanford Drone Dataset
UCF-QNRF
VERI-Wild
Boats
MVTec-AD
CORe50
NORB
RSOD
VeRi
Unsupervised Vehicle Appearance
BoxCars21k
BoxCars116k
Reld HDR
ROSV