数据是驱动科技发展的源泉,平时我们科研中也经常需要在各种开源数据上验证自己模型的效果。那时间序列目前可以使用的开源数据集有哪些呢?本期为大家做一次较为全面的整理汇总。

UCR Time Series

UCR时间序列数据集是时序领域的“Imagnet”,涵盖医疗/电力/地理 等诸多领域,目前全量数据有128种。涉及时间序列预测、回归、聚类等诸多任务,可以说是发Paper必跑数据集,由加州大学河滨分校计算机系的教授 Eamonn Keogh 所在的课题组维护。

http://www.cs.ucr.edu/~eamonn/time_series_data/

数据使用方法:

from pyts import datasets
print(datasets.ucr_dataset_list())
data_train, data_test, target_train, target_test=datasets.fetch_ucr_dataset("GunPoint",return_X_y=True)

FigShare

时序数据异常检测数据挖掘比赛题目 时序数据集_时间序列

figShare是一个研究成果共享平台,这里向全世界开放免费的研究成果及科学数据。

https://figshare.com/

Awesome Public Datasets

时序数据异常检测数据挖掘比赛题目 时序数据集_数据集_02

该项目提供了一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。

https://github.com/awesomedata/awesome-public-datasets

服务监控数据集

时序数据异常检测数据挖掘比赛题目 时序数据集_数据_03

该数据集是由人工神经网络公司Numenta所提供的,包含互联网服务场景下的各种流式数据与评测脚本。NAB是用于评估数据流实时应用中异常检测算法的新颖基准,它由50多个带有标签的真实世界和人工时间序列数据文件以及为实时应用程序设计的新颖评分机制组成。

https://github.com/numenta/NAB

音乐数据库

时序数据异常检测数据挖掘比赛题目 时序数据集_数据集_04

这个数据集包含了海量的公开音乐数据库,适用于包含音乐推荐、分类在内的各种任务

http://millionsongdataset.com/

as

国家经济数据库

国家统计局经常会统计涉及经济民生等多个方面的指标,提供了非常丰富的开源时间序列数据。这里简单为大家列举一些可以获取这些数据的渠道:

国家数据

时序数据异常检测数据挖掘比赛题目 时序数据集_时间序列_05

数据来源中华人民共和国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,较为全面。

https://data.stats.gov.cn/

CEIC

时序数据异常检测数据挖掘比赛题目 时序数据集_数据_06

涵盖超过195个国家400多万个时间序列的数据源,最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。

https://www.ceicdata.com/zh-hans

万得

时序数据异常检测数据挖掘比赛题目 时序数据集_数据集_07

被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

https://www.wind.com.cn/

中国统计信息网

时序数据异常检测数据挖掘比赛题目 时序数据集_数据集_08

国家统计局的官方网站,汇集了全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

http://www.tjcn.org/

政府开放数据

除了上述国家经济数据库以外,各地方也有自己的开放数据。这里简单列举:

· 北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。

https://data.beijing.gov.cn/

· 深圳市政府数据开放平台:交通、文娱、就业、基础设施等数据。

https://opendata.sz.gov.cn/

· 上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等12个重点领域数据。

https://data.sh.gov.cn/

· 贵州省政府数据开放平台:贵州省在政务数据开放方面做的确实不错。

http://data.guizhou.gov.cn/

·Data.Gov:美国政府开放数据,包含气候、教育、能源金融等各领域数据。

https://www.data.gov/

.

数据竞赛平台

除了上面整理的常用的开源时间序列数据以外,我们如果想获取针对特定任务的时间序列数据,还可以通过各种竞赛平台获取数据。这些数据集通常干净且科研性非常高。包括:

  • DataCastle :专业的数据科学竞赛平台 https://js.dclab.run/v2/index.html
  • Kaggle :全球最大的数据竞赛平台 https://www.kaggle.com/
  • 天池 :阿里旗下数据科学竞赛平台 https://tianchi.aliyun.com/
  • Datafountain :CCF制定大数据竞赛平台 https://www.datafountain.cn/