2017数据科学职位报告:R超过SAS,但仍不如Python

简介: 本文以美国最大的招聘网站Indeed.com为统计平台,通过对某一天数据科学职位的招聘数量进行统计分析,得出数据科学软件的变化趋势。

更多深度文章,请关注:https://yq.aliyun.com/cloud
Bob_Muenchen
Bob Muenchen

《R for SAS and SPSS Users》的作者,r4stats.com(分析数据科学软件趋势、帮助人们学习R语言的一家网站)的创办者;同时也是ASA官方认证的专业统计学家(30年从业经验),现任田纳西大学OIT Research Computing Support的管理员。

前言

招聘广告的数量能一定程度上反应每一种软件的流行程度,并从中预测出哪一种在将来会更加流行。本文作者以美国最大的招聘网站Indeed.com为统计平台,通过对某一天数据科学职位的招聘数量进行统计分析,得出数据科学软件的变化趋势。

为了公平,本文采用了一种专门的方法,用来在数据科学职位范围内统计每种软件的招聘数量(详见How to Search for Data Science Jobs),文中所有的图片也都是在这个前提下取得的,统计日期为2017年2月24日。

正文

各种软件招聘量见下图。其中最多的是SQL,将近18000,然后分别是Python和JAVA(13000左右),Hadoop(10000左右),R,C系列和SAS(这是R首次在在数据科学职位报告中超过SAS),Apache Spark(详细分析见Spark is the Future of Analytics),Tableau(5000左右,限数据科学职位),Apache Hive(3900左右),Scala,SAP,MATLAB,SPSS。其中Scala,SAP,MATLAB,SPSS均为2500左右。
Fig_1a_IndeedJobs_2017_1_

招聘量小于250的软件列在了下图中,分别是:Alteryx(240),Microsoft(Azure Machine Learning and Microsoft Cognitive Toolkit,157),Julia,FORTRAN,Apache Flink(125),H2O(100)。以操作容易为卖点的SAS Enterprise Miner、RapidMiner和KNIME招聘量都是90左右,大概是因为各公司认为没有必要聘请专家?SPSS模块也是同样类型的接口,但却只有50个职位。开源的MXNet深度学习框架有34个职位,而Tensorflow是它的12倍,但是两者都很年轻,有足够大的潜力在未来快速发展。
Fig_1b_IndeedJobs_2017_3_

下面我们先来看一下R是如何超过SAS的。从下图可以看出,在2012年到2017年2月28日这个时间段,SAS的职位需求一直都很稳定,而R则稳定增长并最终在2016年早期超过了SAS。另外根据blog post所述,R于2015年就已经在学术出版物中超过SAS。
Fig_1c_R_v_SAS_2017_02_18_1_

再来看一下Python和R。Python和R谁更流行的争论是由来已久,但是从来都没有多少数据支持。但是单从招聘职位上来看,Python于2013年就已经超过了R(如下图)。当然我们要清楚,R只是单纯用来进行数据分析,而Python在数据科学领域用途更广泛。

Fig_1d_R_v_Python_2017_2_28_2_

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

文章原标题《Data Science Job Report 2017: R Passes SAS, But Python Leaves Them Both Behind》,作者:Bob Muenchun,译者:杨辉,审校:董昭男,更为详细的内容,请查看原文

相关文章
|
3月前
|
机器学习/深度学习 数据可视化 数据处理
从基础到进阶:探索Python在数据科学中的应用
【10月更文挑战第18天】从基础到进阶:探索Python在数据科学中的应用
60 1
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
Python 数据分析:从零开始构建你的数据科学项目
【10月更文挑战第9天】Python 数据分析:从零开始构建你的数据科学项目
73 2
|
2月前
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python在数据科学中的应用:从入门到实践
本文旨在为读者提供一个Python在数据科学领域应用的全面概览。我们将从Python的基础语法开始,逐步深入到数据处理、分析和可视化的高级技术。文章不仅涵盖了Python中常用的数据科学库,如NumPy、Pandas和Matplotlib,还探讨了机器学习库Scikit-learn的使用。通过实际案例分析,本文将展示如何利用Python进行数据清洗、特征工程、模型训练和结果评估。此外,我们还将探讨Python在大数据处理中的应用,以及如何通过集成学习和深度学习技术来提升数据分析的准确性和效率。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
Python数据科学:从基础到实战
Python数据科学:从基础到实战
48 1
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
Python在数据科学中的应用###
本文探讨了Python语言在数据科学领域的广泛应用及其重要性。通过分析Python的简洁语法、强大的库支持和跨平台特性,阐述了为何Python成为数据科学家的首选工具。文章还介绍了Python在数据处理、分析和可视化方面的具体应用实例,展示了其在提升工作效率和推动科学研究方面的巨大潜力。最后,讨论了未来Python在数据科学领域的发展趋势和挑战。 ###
|
2月前
|
机器学习/深度学习 分布式计算 数据可视化
Python在数据科学中的应用与挑战
本文探讨了Python编程语言在数据科学领域的广泛应用及其面临的主要挑战。Python因其简洁的语法、强大的库支持和活跃的社区,已成为数据科学家的首选工具。然而,随着数据量的激增和复杂性的增加,Python也面临着性能瓶颈、内存管理等问题。本文将通过具体案例分析,展示Python在数据处理、分析和可视化方面的优势,同时讨论如何克服其在大规模数据处理中的局限性,为读者提供实用的解决方案和优化建议。
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
61 0
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
Python在数据科学中的应用:从数据处理到模型训练
Python在数据科学中的应用:从数据处理到模型训练

热门文章

最新文章