程序IT圈
www.cxyquan.com
优秀程序猿技术公众号
摘要
"The world's most valuable resource is no longer oil,but data"
一种新的商品催生出一个利润丰厚、发展迅速的行业。这促使反垄断监管机构介入,从而约束那些能够控制这种商品流动的巨头。
一百年前,石油就是这样一种资源。现在,一些经营数据的巨头引发了类似担忧,这些数据将成为数字时代的石油。
目前处于数据驱动型经济中,如果无法分析当前或未来的趋势,任何组织都无法生存下去。抢夺数据已经成为决定下一步行动方案的关键。
作为数据科学领域的从业者来说,对于数据的需求更为强烈。
本次整理了一些NBA、社交网络、图像、语音、文本、时间序列、人文历史、金融等领域的免费和开源的数据集资源。
数据集
一、NBA球员数据集:

二、图像、文本、语言数据集
图像
1、由79302017幅图像组成的数据集,每幅图像为32x32像素彩色图像。

2、人脸识别数据集。

3、一个可搜索的图像数据库。
语音:

1、CMU语音识别数据库。
2、对音乐分析的数据集。

3、100万首歌曲的数据集
文本:

1、用于构建机器学习推荐系统的1.5 TB数据集
三、金融和商业数据集:

1、ebay拍卖招标数据集。

2、纽约市警察局的交通事故数据(csv格式)。
3、从aiHit数据库中随机抽取的10,000家英国公司的信息
4、美国股票新闻数据
5、美国金融客户投诉数据
229
6、Airbnb 开放的民宿信息和住客评论数据
四、政府出台的相关数据

1、健康、环境、能源等数据。

2、经济时间系列,由美国政府机构制作,以多种形式和媒体发行

3、USGovXML是一个由美国政府提供的公开可用web服务和XML数据源的索引
五、技术、社交网络、人文历史等数据集
1、80 Tb的存档web爬虫数据。

2、一个包含许多“开放”社交网络分析数据集的可访问库的站点。

3、斯坦福大型网络数据集收集。

4、一个包含谷歌图书公司的数据集。

5、基因遗传数据集。

6、地球撞击陨石数据。
机器学习数据集常用搜索网站
1、Kaggle
2、加州大学欧文分校机器学习库。

3、Google数据集搜索。
4、Datahub,分享高质量数据集平台
5、用于上传和查找数据集的机器学习数据集存储库。
介绍完以上的数据,最后分享份收藏已久的数据分析课的视频资源,希望帮助公众号的读者入门!
大家可以在本公众号『程序IT圈』上输入框回复:数据。
~完~
从2019年开始,公众号的送书活动,会采用一个月时间留言打卡最多的形式送出 。留言的话题,每天都不一样。
打卡格式:Day 0X:+评论区文末话题留言或者每日真实收获 。
希望这个打卡活动,可以长期坚持下去,助大家养成一个思考和分享的习惯!
今日话题
看完本文,你自己觉得目前世界上最有价值的东西是什么?或者,你也可以在评论区补充更多的数据链接渠道资源给其他人学习 。任何一个话题都可以,只要是经过自己认真思考后得出的答案即可!每天文末的话题讨论打卡,就是希望大家多交流,每个人都有在公众号发言的权力!希望你和我一起在这里成长!
点击「写留言」分享你的看法吧~