任务简介
计算机视觉中关于图像识别有四大类任务:分类,定位,检测,分割。目标检测(Object Detection)是一个分类、回归问题的叠加,有以下核心问题:
- 分类问题:即图片(或某个区域)中的图像属于哪个类别。
- 定位问题:目标可能出现在图像的任何位置。
- 大小问题:目标有各种不同的大小。
- 形状问题:目标可能有各种不同的形状。
数据集
Pascal VOC
- 简介:VOC数据集是目标检测经常用的一个数据集,自2005年起每年举办一次比赛,最开始只有4类,到2007年扩充为20个类,共有两个常用的版本:2007和2012。学术界常用5k的train/val 2007和16k的train/val 2012作为训练集,test 2007作为测试集,用10k的train/val 2007+test 2007和16k的train/val 2012作为训练集,test2012作为测试集,分别汇报结果。
- 官网:The PASCAL Visual Object Classes Homepage
- 论文:https://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf
- 下载地址:The PASCAL Visual Object Classes Homepage
- 天池下载地址:Pascal VOC_数据集-阿里云天池
ImageNet
- 简介:ImageNet Large Scale Visual Recognition Challenge(ILSVRC)已经将一般的目标检测向前推进了一大步。ILSVRC从2010到2017年每年被组织比赛,其中就包含了用ImageNet图像进行检测。ILSVRC中包含了200类视觉目标,图像和目标实例的数量比VOC大两个数量级。例如,ILSVRC-14就包含了517K张图像和534k被标注的目标。
- 官网:ImageNet
- 论文:https://arxiv.org/pdf/1409.0575.pdf
- 下载地址:ImageNet
- 天池下载地址:ImageNet_数据集-阿里云天池
MS-COCO
- 简介:MS-COCO是目前最具有挑战性的目标检测,从2015年开始,每年都会举办基于MS-COCO数据集的竞赛,其包含的目标种类要少于ILSVRC,但其有更多的目标实例。例如,MS-COCO-17中包含了164k张图像和897K个被标注来自80个类别的目标。相比于VOC和ILSVRC,MS-COCO最大的进步,除了boundingbox的标注,还有单个实例分割的标注,帮助更准确的定位。另外,MS-COCO包含了更多小目标(其面积小于图像的1%)和更加密集的定位目标比VOC和ILSVRC。MS-COCO的这些特征让其目标分布更接近于真实的世界。MS-COCO已经在目标检测社区变为了实际的标杆。
- 官网:COCO - Common Objects in Context
- 论文:https://arxiv.org/pdf/1405.0312.pdf
- GitHub:https://github.com/cocodataset/cocoapi
- 下载地址:COCO - Common Objects in Context
- 天池下载地址:MS-COCO_数据集-阿里云天池
Open Images
- 简介:2018年,Open Images Detection(OID)竞赛紧随MS-COCO被引进。在OpenImages中有两个重要的任务:1)标准的目标检测;2)视觉关系检测,即检测具有特定关系的成对目标。对于目标检测任务,此数据集包含了1910k张图像,其中在600多个目标种类上有15440k个标注的boundingbox。
- 官网:Open Images V7
- 论文:https://arxiv.org/pdf/1811.00982.pdf
- GitHub:https://github.com/openimages/dataset
- 下载地址:Open Images V7
- 天池下载地址:Open Images_数据集-阿里云天池
DOTA
- 简介:DOTA是遥感航空图像检测的常用数据集,包含2806张航空图像,尺寸大约为4k^4k,包含15个类别共计188282个实例,其中14个主类,small vehicle和large vehicle都是vehicle的子类。其标注方式为四点确定的任意形状和方向的四边形。航空图像区别于传统数据集,有其自己的特点,如:尺度变化性更大;密集的小物体检测;检测目标的不确定性。数据划分为1/6验证集,1/3测试集,1/2训练集。DOTA目前发布了训练集和验证集,图像尺寸从800*800到4000^4000不等。
- 官网:DOTA
- 论文:https://arxiv.org/pdf/1711.10398.pdf
- GitHub:https://github.com/dingjiansw101/AerialDetection
- 下载地址:DOTA
- 天池下载地址:DOTA_数据集-阿里云天池
Stanford Drone Dataset
- 简介:Stanford Drone Dataset使用无人机在校园拥挤的时间段以俯视的方式收集了8个不同的场景下20k个物体的轨迹交互信息,每个物体的轨迹都标注唯一的ID,使得该数据集十分适合用于:1. 目标轨迹预测。2. 多目标跟踪。
- 官网:Computational Vision and Geometry Lab
- 论文:Stanford Vision and Learning Lab (SVL)
- 下载地址:http://vatic2.stanford.edu/stanford_campus_dataset.zip
- 天池下载地址:Stanford Drone Dataset_数据集-阿里云天池
UCF-QNRF
- 简介:UCF-QNRF由弗罗里达大学在2018年发布,共包括1535张人群图像,其中训练集1201张图像,测试集334张图像。就注释数量而言,UCF-QNRF是迄今为止最大的数据集,可用于训练和评估大规模人群密集计数模型。与同类数据集相比,UCF-QNRF包含多种场景、多个视角、多种光线及密度变化的大规模已标注人体,因此非常适用于训练深度卷积神经网络。UCF-QNRF数据集图像均为高清大图,图像分辨率为2013^2902。此外它还包含了建筑、植被、天空和道路等世界各地的户外真实场景,对于研究不同地区人群密度具有重要意义。
- 官网:CRCV | Center for Research in Computer Vision at the University of Central Florida
- 论文:https://arxiv.org/pdf/1808.01050.pdf
- 下载地址:https://www.crcv.ucf.edu/data/ucf-qnrf/UCF-QNRF_ECCV18.zip
- 天池下载地址:UCF-QNRF_数据集-阿里云天池
VERI-Wild
- 简介:VERI-Wild数据集是从一个大型闭路电视监控系统中跨越一个月(30^24h)捕获的,该系统由174个摄像机组成,分布在一个面积超过200平方公里的大型市区。在数据清理和注释之后,该数据集包含40671辆车的416314张车辆照片。此数据集的差异化体现于时间跨度所带来的照明、天气变化等,可用于目标检测等领域的研究。
- 官网:https://github.com/PKU-IMRE/VERI-Wild
- 论文:https://openaccess.thecvf.com/content_CVPR_2019/papers/Lou_VERI-Wild_A_Large_Dataset_and_a_New_Method_for_Vehicle_CVPR_2019_paper.pdf
- GitHub:https://github.com/PKU-IMRE/VERI-Wild
- 天池下载地址:VERI-Wild_数据集-阿里云天池
Boats
- 简介:Boats数据集是由香港城市大学提供的关于船只在水面移动的数据集,该数据集包含3个视频,分别为只有水背景的视频、两艘船在水面的视频和只有一艘船在水面的视频,可被用于背景抽离等领域的研究。
- 官网:Downloads | VISAL
- 论文:http://visal.cs.cityu.edu.hk/static/pubs/journal/mva11-dtbkgnd.pdf
- 下载地址:http://visal.cs.cityu.edu.hk/static/downloads/boats.zip
- 天池下载地址:Boats_数据集-阿里云天池
MVTec-AD
- 简介:MVTec-AD数据集是用于对异常检测方法进行基准测试的数据集,重点是工业检测。 它包含超过5000个高分辨率图像,分为15个不同的对象和纹理类别。 每个类别包括一组无缺陷的训练图像和具有各种缺陷的图像的测试集以及没有缺陷的图像。
- 官网:MVTec Anomaly Detection Dataset: MVTec Software
- 论文:https://www.mvtec.com/fileadmin/Redaktion/mvtec.com/company/research/datasets/mvtec_ad.pdf; https://link.springer.com/content/pdf/10.1007/s11263-020-01400-4.pdf
- 天池下载地址:MVTec-AD_数据集-阿里云天池
CORe50
- 简介:CORe50连续目标识别数据集是用于连续目标识别的数据集合基准,主要用于评估对象识别环境中的持续识别,以及三种不同持续学习场景的基线方法。该数据集由博洛尼亚大学于2017年发布,主要发布人为Vincenzo Lomonaco和Davide Maltoni,相关论文有《CORe50: a new Dataset and Benchmark for continual Object Recognition》。
- 官网:CORe50
- 论文:https://arxiv.org/pdf/1907.03799.pdf; https://arxiv.org/pdf/1705.03550.pdf
- GitHub:https://github.com/vlomonaco/core50
- 下载地址:CORe50
- 天池下载地址:CORe50_数据集-阿里云天池
NORB
- 简介:NORB–3D物体图像识别数据集是基于形状进行3D对象重定位的实验数据集,其包含四足动物、人物、飞机、卡车和汽车5个通用类别的50种玩具图像。数据集中的物体由两个相机在6种光照条件、9个高度和18个方位角下成像,其由包含5个实例的训练集和包含5个实例的测试集组成。该数据集由纽约大学于2004年发布,主要发布人为 Fu Jie Huang和Yann LeCun,相关论文有《Learning Methods for Generic Object Recognition with Invariance to Pose and Lighting》。
- 官网:NORB Object Recognition Dataset, Fu Jie Huang, Yann LeCun, New York University
- 论文:https://leon.bottou.org/publications/pdf/cvpr-2004.pdf
- GitHub:https://github.com/ndrplz/small_norb
- 下载地址:NORB Object Recognition Dataset, Fu Jie Huang, Yann LeCun, New York University
- 天池下载地址:NORB_数据集-阿里云天池
RSOD
- 简介:RSOD物体检测数据集是用于遥感图像中物体检测的数据集,其包含飞机、操场、立交桥和油桶四类目标,数量分别为:446张图 —— 4993架飞机,189张图 —— 191个操场,176张图 —— 180座立交桥,165张图 —— 1586个油桶。该数据集由武汉大学于2015年发布,相关论文有《Elliptic Fourier transformation-based histograms of oriented gradients for rotationally invariant object detection in remote-sensing images》和《Accurate Object Localization in Remote Sensing Images Based on Convolutional Neural Networks》。
- 官网:https://github.com/RSIA-LIESMARS-WHU/RSOD-Dataset-
- 论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7827088; https://www.tandfonline.com/doi/full/10.1080/01431161.2014.999881
- GitHub:https://github.com/RSIA-LIESMARS-WHU/RSOD-Dataset-
- 下载地址:https://github.com/RSIA-LIESMARS-WHU/RSOD-Dataset-
- 天池下载地址:RSOD_数据集-阿里云天池
VeRi
- 简介:Vehicle ReId数据集由布尔诺理工大学发布,包含两台摄像机所录制的5个视频文件,并从中提取出47123张车辆图像。该数据集还包括24530组车辆配对信息,可被用于车辆重新识别等任务。
- 官网:PROVID Progressive and Multi-modal Vehicle Re-identification for Large-scale Urban Surveillance
- 论文:; https://link.springer.com/content/pdf/10.1007/978-3-319-46475-6_53.pdf; http://xinchenliu.com/papers/2016_ICME_VeRi.pdf
- GitHub:https://github.com/VehicleReId/VeRi
- 天池下载地址:VeRi_数据集-阿里云天池
Unsupervised Vehicle Appearance
- 简介:该数据集是由布尔诺理工大学发布,包含对于472000辆车的约140万张图像文件。这些图像文件由多个摄像头记录,且车辆都被边界框所注释。该数据集可被用于图像检测分类等任务。
- 论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7371318
- 下载地址(已失效):Unsupervised Vehicle Appearance 车辆检测数据集 / 数据集 / 超神经
- 天池下载地址:布尔诺理工大学图像检测数据集_数据集-阿里云天池
BoxCars21k
- 简介:BoxCars21k数据集是由布尔诺理工大学发布,包括21250辆车的63750张图像。该数据集还提供27种车辆品牌信息与148种车辆品牌型号和型号年份等类别信息,可被用作于图像检测分类等领域的研究。
- 论文:https://arxiv.org/pdf/1703.00686.pdf
- GitHub:https://github.com/JakubSochor/BoxCars
- 下载地址(已失效):https://medusa.fit.vutbr.cz/traffic/data/2016-CVPR-BoxCars21k-dataset.zip
- 天池下载地址:布尔诺理工大学图像检测数据集_数据集-阿里云天池
BoxCars116k
- 简介:BoxCars116k数据集由布尔诺理工大学发布,包括116000张车辆图像。这些图像皆由多个监控摄像头拍摄,且来自于多个观察点。该数据集可被用作于交通车辆检测等领域的研究。
- 论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8307405
- GitHub:https://github.com/JakubSochor/BoxCars
- 下载地址(已失效):https://medusa.fit.vutbr.cz/traffic/data/BoxCars116k.zip
- 天池下载地址:布尔诺理工大学图像检测数据集_数据集-阿里云天池
Reld HDR
- 简介:Reld和HDR数据集是由布尔诺理工大学发布,包含了低分辨率及低图像质量的车牌图像。该数据集收集于真实世界中的图像而非合成图,可被用于图像检测类研究使用,如识别低分辨率和低质量图像的车牌信息等任务。
- 论文:https://arxiv.org/pdf/1605.09653.pdf
- GitHub:https://github.com/NEU-Gou/awesome-reid-dataset
- 下载地址(已失效):Reld HDR 低分辨率车牌数据集 / 数据集 / 超神经
- 天池下载地址:布尔诺理工大学图像检测数据集_数据集-阿里云天池
ROSV
- 简介:该数据集是由布尔诺理工大学发布,包括三个子数据集,分别为后视拍摄数据集、眼部平视拍摄数据集以及无约束拍摄数据集。每个子数据集包含5000张含有注释的图片,可被用于车辆识别等任务的研究。
- 下载地址(已失效):ROSV 交通摄像头图片数据集 / 数据集 / 超神经
- 天池下载地址:布尔诺理工大学图像检测数据集_数据集-阿里云天池