全文共3513字,预计学习时长7分钟
图片来源: MockupEditor.com/pexels.com
第20届KDnuggets年度软件调查吸引了超过1800人参与投票。每位参与者平均选择了6.1个不同的工具,因此那些仅投一票的参与者会对调查结果带来偏差。KDnuggets排除了大约180个这样的「独好」投票(其中有2/3来自于一个供应商),因为即使他们代表了该工具的合法用户,其经历也不能代表2019年数据科学家们的日常工作。
排除「独好」投票者后,以下是基于剩余参与者的初步分析。更多详细分析和匿名数据将在以后公布。
最受欢迎的分析、数据科学、机器学习软件
图 1:KDnuggests 分析/数据科学2019 年软件调查:2019 年最受欢迎工具,以及它们相对于2017-2018 年的排名变化。
有趣的是,2019年前11款最受欢迎的工具(每个工具的使用率至少为20%)与2018年完全重合。
Software | 2019 | 2018 | 2017 |
Python | 65.8% | 65.6% | 59.0% |
RapidMiner | 51.2% | 52.7% | 31.9% |
R Language | 46.6% | 48.5% | 56.6% |
Excel | 34.8% | 39.1% | 31.5% |
Anaconda | 33.9% | 33.4% | 24.3% |
SQL Language | 32.8% | 39.6% | 39.2% |
Tensorflow | 31.7% | 29.9% | 22.7% |
Keras | 26.6% | 22.2% | 10.7% |
scikit-learn | 25.5% | 24.4% | 21.9% |
Tableau | 22.1% | 26.4% | 21.8% |
Apache Spark | 21.0% | 21.5% | 25.5% |
表1:KDnuggests 2019 年软件调查最受欢迎的分析/数据科学/机器学习软件
在这里,「201N % share」一栏是指在201N年使用该工具的用户百分比。
每个投票者的平均使用工具数量是6.7个,与2018年的7.0个和2017年的6.75个的数据非常一致。
以下是根据连续三年最受欢迎工具的变化趋势得出的一些观察结果:
Python依然最受欢迎,与2018年python的使用率(2019年使用率65.8%vs 2018年使用率65.6%)几乎相同。
RapidMiner用户使用率保持在51%左右,这既反映了其庞大的用户群,也显示了其为激励用户参与调查发起的成功的推广。值得注意的是,RapidMiner并不是KdNuggets目前的广告商。
R语言市场份额已连续两年呈下降趋势,但今年下降幅度比去年要小。有些用户提出RStudio也应该被纳入调查范围,因此KdNuggets将在下一年的调查中加入RStudio。
深度学习平台Tensorflow,尤其是Keras的使用率每年都在增加,这反映了深度学习在各领域得到更多应用。
SQL使用率保持稳定,连续多年保持着30%以上的使用率。因此,如果你是一位有雄心壮志的数据科学家,在学习TensorFlow的同时也学习SQL吧,它在很长一段时间里都会有用。
趋势
2019年有一些新的数据科学软件也加入了调查,其中8个软件获得了至少25票。
· XGBoost, 12.7%
· Javascript, 6.8%
· Apache Kafka, 6.0%
· Google Bigquery, 5.2%
· LightGBM, 3.1%
· fastai library, 2.4%
· Apache Storm 1.9%
· CatBoost, 1.8%
下表中列举了参与2018年KDnuggets调查的,2019年使用率增长达20%以上,且获得至少25票的工具。
Software | 2019 | 2018 | % change |
BigML | 2.6% | 0.9% | 199% |
Julia | 1.7% | 0.7% | 150% |
Databricks Unified Analytics Platform | 2.6% | 1.2% | 115% |
PyTorch | 11.3% | 6.4% | 76% |
Microsoft other ML/Data Science tools | 1.8% | 1.3% | 35% |
表2:使用率增幅较大的主要分析/数据科学/机器学习工具
持续整合?
2018 年使用率达到2%及以上的48个工具中,有14个(小于 1/3)工具在2019年使用率有所上升,其余34个均下降。在2018年间也出现了这种趋势,表明数据科学平台与机器学习平台的整合正在进行过程中。
2018 年使用率至少 2% 的工具,今年下降了 25% 甚至更多,详见下表。
Platform | 2019 | 2018 | % change |
Dataiku | 2.0% | 6.3% | -68.2% |
TIBCO Spotfire | 1.2% | 3.1% | -62.2% |
IBM DSX/Watson Studio | 1.9% | 4.5% | -58.3% |
IBM SPSS Modeler | 2.4% | 4.9% | -51.2% |
Microsoft Machine Learning Server | 1.2% | 2.1% | -41.8% |
Weka | 6.7% | 11.4% | -41.4% |
MATLAB | 6.1% | 9.3% | -34.5% |
IBM SPSS Statistics | 5.3% | 8.0% | -33.6% |
表 3:使用率跌幅最大的主要分析/数据科学工具
一些工具使用率下跌的原因可能是供应商推广活动做的不到位,导致参与KDnuggets调查的人数不多。有些下跌则是由于平台的普及率下降,国际商业机器公司也可能是如此。
深度学习工具
该调查中使用深度学习工具的投票者所占份额从2018年的33%和2017年的32%一跃而至49.8%。
TensorFlow 仍然是深度学习领域中的主导平台,Keras作为构建在TensorFlow框架上极受欢迎的包装器也在迅速发展。PyTorch占据份额也得到了极大的增长。其他大部分的深度学习工具(除了MXnet)使用率都有不同程度的下降。
Platform | 2019 | 2018 | % change |
Tensorflow | 31.7% | 29.9% | 5.8% |
Keras | 26.6% | 22.2% | 19.7% |
PyTorch | 11.3% | 6.4% | 75.5% |
Other Deep Learning Tools | 5.6% | 4.9% | 15.2% |
DeepLearning4J | 2.5% | 3.4% | -25.6% |
Apache MXnet | 1.7% | 1.5% | 13.1% |
Microsoft Cognitive Toolkit | 1.6% | 3.0% | -45.5% |
Theano | 1.6% | 4.9% | -67.4% |
Torch | 0.9% | 1.0% | -6.1% |
TFLearn | 0.7% | 1.1% | -34.7% |
Caffe | 0.6% | 1.5% | -58.3% |
表4:主要深度学习工具排名
大数据工具
图片来源: Pixabay/pexels.com
2019年,约37%的用户使用大数据工具,2018年约为33%。ApacheSpark使用率持续领先于Hodoop,流式大数据平台如ApacheStorm、Flink和wso2流处理器开始兴起。下表显示了相关细节,na代表着软件在2018年没有被纳入调查中。
Platform | 2019 | 2018 | % change |
Apache Spark | 21.0% | 21.5% | -2.3% |
Hadoop: Open Source Tools | 12.1% | 11.0% | 10.2% |
SQL on Hadoop tools | 8.4% | 10.2% | -17.3% |
Apache Kafka | 6.0% | na | na |
Google Bigquery | 5.2% | na | na |
Hadoop: Commercial Tools | 4.5% | 5.7% | -20.1% |
Apache Storm | 1.9% | na | na |
Flink | 0.8% | na | na |
WSO2 Stream Processor | 0.5% | na | na |
编程语言
Python和R持续占据主导地位。今年新加入调查的是Javascript,占据相当可观的6.8%的份额。Julia的份额也有所上升,但其他大多编程语言的份额都减少了。
以下是按热门度排序的主要编程语言:
Platform | 2019 | 2018 | % change |
Python | 65.8% | 65.6% | 0.2% |
R Language | 46.6% | 48.5% | -4.0% |
SQL Language | 32.8% | 39.6% | -17.2% |
Java | 12.4% | 15.1% | -17.7% |
Unix shell/awk | 7.9% | 9.2% | -13.4% |
C/C++ | 7.1% | 6.8% | 3.7% |
Javascript | 6.8% | na | na |
Other programming and data languages | 5.7% | 6.9% | -17.1% |
Scala | 3.5% | 5.9% | -41.0% |
Julia | 1.7% | 0.7% | 150.4% |
Perl | 1.3% | 1.0% | 25.2% |
Lisp | 0.4% | 0.3% | 46.1% |
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货
编译组:段昌蓉、杨敏迎
相关链接:
https://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-platforms.html
如需转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你