1、Kaggle数据集

  数据集地址:https://www.kaggle.com/datasets

2、Amazon数据集

  数据集地址:https://registry.opendata.aws/

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。

网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!

如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。

3、UCI机器学习资源库

  数据集地址:https://archive.ics.uci.edu/ml/datasets.html

另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。

用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。

有些UCI的数据集已经是被清洗过的。

4、谷歌数据集搜索引擎

  数据集地址:https://toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。

他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。

5、微软数据集

  数据集地址:https://msropendata.com/

2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。

6、Awesome Public Datasets Collection

  数据集地址:https://github.com/awesomedata/awesome-public-datasets

这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。

这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。

7、政府数据集

政府相关数据集也很容易找到的。

许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:

欧盟开放数据门户:欧洲政府数据集。

  数据集地址:https://data.europa.eu/euodp/data/dataset

美国政府数据:目前由于一些非政治性原因,暂时无法访问。

  数据集地址:https://www.data.gov/

新西兰政府数据集:

  数据集地址:https://catalogue.data.govt.nz/dataset

印度政府数据集:

  数据集地址:https://data.gov.in/

8、计算机视觉数据集

  数据集地址:https://www.visualdata.io/

Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。

用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。