详解KITTI数据集

一、KITTI数据集发布方

2011年,Andreas Geiger(KIT)、Philip Lenz(KIT)、Raquel Urtasun(TTIC)三位年轻人发现,阻碍视觉感知系统在自动驾驶领域应用的主要原因之一,是缺乏合适的benchmark。而现有的数据集无论是在数据量,还是采集环境上都与实际需求相差甚远。于是他们利用自己的自动驾驶平台,建立起庞大的基于真实场景下的数据集,以此推动计算机视觉和机器人算法在自动驾驶领域的发展。这便是KITTI数据集的诞生背景。

二、KITTI数据集介绍

KITTI数据集是一个用于自动驾驶场景下的计算机视觉算法测评数据集,由德国卡尔斯鲁厄理工学院(KIT)和丰田工业大学芝加哥分校(TTIC)共同创立。

semantic kitti数据集格式 kitti数据集解析_semantic kitti数据集格式

包含场景:市区、乡村和高速公路
数据集组成:

立体图像和光流图: 389对
视觉测距序列: 39.2 km
3D标注物体的图像组成: 超过200k
采样频率: 10Hz
3D物体检测类别: car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram, misc

三、KITTI数据采集平台

KITTI数据集的数据采集平台装配有1个惯性导航系统,1个64线3D激光雷达,2个灰度摄像机,2个彩色摄像机,以及4个光学镜头。具体的传感器参数如下:

全球定位及惯性导航系统(GPS/IMU): OXTS RT 3003 ×1 (open sky localization errors < 5 cm)
3D 64线激光雷达: Velodyne HDL-64E ×1 (10 Hz, 64 laser beams,range: 100 m)
灰度摄像机: Point Grey Flea 2 (FL2-14S3M-C) ×2 (10 Hz,resolution: 1392×512 pixels, opening: 90◦ ×35◦),
彩色摄像机: Point Grey Flea 2 (FL2-14S3C-C) ×2 (10 Hz,resolution: 1392×512 pixels, opening: 90◦×35◦),
光学镜头(4-8 mm): Edmund Optics NT59-917 ×4
传感器的配置平面图如下:

规定坐标系方向如下:

Camera: x = right, y = down, z = forward
Velodyne: x = forward, y = left, z = up
GPS/IMU: x = forward, y = left, z = up

四、KITTI数据集的Benchmark介绍

KITTI数据集主要有以下Benchmark:

  1. stereo 2015/flow 2015 / scene flow

由200个训练场景和200个测试场景构成,每个场景的图片都有4种颜色,以png格式保存。

Stereo:主要利用双目摄像头采集的信息,得出图像的立体视觉和三维重建

Flow:通过检测图像像素点的强度随时间的变化,推断出物体移动速度及方向

Sceneflow:在flow的基础上,增加第三维信息

  1. depth

包含超过93000张深度图以及相应的原始LiDaR扫描和RGB图像,主要用于视觉深度评估任务。

  1. odometry

视觉里程计,由22个立体声序列组成,其中,11个序列(00-10)带有真值,可用于训练;11个序列(11-21)没有真值,可用于评估。该数据集主要用于进行视觉测程算法, 根据帧与帧之间的图片的不同,推算出车的行驶距离以及行驶轨迹等数据。

  1. object

包括2D,3D和鸟瞰视角3种方式的benchmark,由7481张训练图像和7518张测试图像组成,总共有80,256个带标签的对象,可用于进行目标检测任务。

  1. tracking

由21个训练序列和29个测试序列组成,主要用于验证无人驾驶中有关目标跟踪的算法。

  1. road

包括289个训练图像和290个测试图像,用于进行道路分割任务。

获取地址:https://gas.graviti.cn/dataset/hello-dataset/KITTIRoad

  1. semantics

由200张带有语义分割标注的训练图像和200张对应于stereo 2015和flow2015的测试图像组成,可用于进行语义分割实例分割任务。

  1. raw data

展现了Kitti数据集的典型样本,包含类别: ‘City’, ‘Residential’, ‘Road’, ‘Campus’, ‘Person’。