如何系统性掌握深度学习中的数据使用_深度学习

数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的理论派。

今天便来谈谈这个问题,同时介绍一个好的学习社区供大家讨论与提升。

文/编辑 | 言有三 

1 需要掌握哪些内容

在公司实战项目做久了的同学,应该都有这个感慨。吾本欲在算法领域大展拳脚,奈何清洗和增加数据就可以让模型性能突飞猛进。我们确实会花费很多的时间去折腾数据,总的来说包括:

(1) 获取数据。

(2) 整理数据。

(3) 分析数据。

(4) 使用数据。

(5) 迭代数据。

所谓获取数据,包括公开数据集的搜索和下载,使用爬虫等工具从零建立数据集。

所谓整理数据,包括格式化,重命名,去重,标注等。

所谓分析数据,包括数据的统计和可视化分析等。

所谓使用数据,包括在开源框架中数据集的接口定义,数据增强策略的使用等。

所谓数据迭代,主要就是针对自己的任务不断调整数据以优化模型等。

2 有三AI已经做了什么

作为这么重要的一个课题,我们当然已经分享过很多的内容了,下面汇总一下。

2.1 数据获取

关于数据获取问题,我们给大家介绍过许多领域的数据集以及数据集对深度学习的影响,相关文章如下:


如何系统性掌握深度学习中的数据使用_数据_02

也多次介绍过爬虫算法,推荐过不少好的项目,相关文章如下:

如何系统性掌握深度学习中的数据使用_数据_03

2.2 数据整理

关于数据整理问题,我们在开源GitHub项目yousan.ai中提供了整套的python和shell脚本,覆盖图像遍历,重命名,随机打乱,去重等功能。

如何系统性掌握深度学习中的数据使用_数据_04

2.3 数据分析

关于数据分析问题,我们已经多次介绍过数据可视化相关的内容,相关文章如下:


如何系统性掌握深度学习中的数据使用_数据集_05

2.4 数据使用

关于数据使用问题,我们已经在yousan.ai中对12个常用的深度学习开源项目如何从头开始定义数据读取和增强API进行了详细的解读,相关文章如下

如何系统性掌握深度学习中的数据使用_深度学习_06

关于数据迭代,每一个领域的做法都不同,因此我们在公众号还没有相关内容,后续会在知识星球中针对具体的任务进行讲解。

3 哪里有更多更新

以上就是全部了吗?当然远远不是。有三在知识星球平台有更多内容,覆盖珍贵的数据集下载,相关经验分享


3.1 经验分享

有一些非常干货的内容,有三只会提供给咱们付费成员,比如数据增强的实战经验,以后还会有更多。

如何系统性掌握深度学习中的数据使用_数据集_07

3.2 数据集分享和下载

在有三AI知识星球中会对各大领域中的数据集进行系统性介绍,另外为了方便大家收藏阅读,有三将分享做成了卡片的形式,并提供了下载链接,案例如下:

有三AI知识星球-数据集

Distracted Driver Detection

如何系统性掌握深度学习中的数据使用_数据_08

Distracted Driver Detection是一个司机状态检测数据集,包含10个状态,共22425张图 。

作者/编辑 言有三

数据集地址:https://www.kaggle.com/c/state-farm-distracted-driver-detection/data,发布于2016年。

每年很多的交通事故的发生都是因为司机没有专注于自动驾驶,因此一个好的辅助驾驶系统不仅要关注车外的情况,也要时刻关注车内驾驶员的情况。

这一个数据集来自于Kaggle平台,该包含了10种状态,如下:

c0: safe driving

c1: texting - right

c2: talking on the phone - right

c3: texting - left

c4: talking on the phone - left

c5: operating the radio

c6: drinking

c7: reaching behind

c8: hair and makeup

c9: talking to passenger

一些样本如下,每一类约2000多张图像,共22425张图。

如何系统性掌握深度学习中的数据使用_数据集_09

如何系统性掌握深度学习中的数据使用_数据_10

现在咱们星球已经覆盖非常多的重磅数据集下载,覆盖大型数据集如ImageNet,人脸各个方向的数据集,自动驾驶各方向数据集,美学各方向数据集,人像各个方向数据集,3D数据集,动植物各个方向数据集,仔细瞧瞧,一定会有惊喜!

如何系统性掌握深度学习中的数据使用_数据集_11

如何系统性掌握深度学习中的数据使用_数据_12

如何系统性掌握深度学习中的数据使用_深度学习_13

如何系统性掌握深度学习中的数据使用_数据集_14

如何系统性掌握深度学习中的数据使用_数据集_15

如何系统性掌握深度学习中的数据使用_数据_16

如何系统性掌握深度学习中的数据使用_数据_17