真的缺数据科学家吗? 如今到底有多少数据科学家?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

关键词:数据科学家、Glassdoor网站、indeed网站、工作岗位、Kaggle平台、LinkedIn(领英)公司、McKinsey(麦肯锡)公司。

8d2846914417b7ff3305d809e0fbc59edc9d7a4c

2011年,麦肯锡发布的《大数据》报告称,“仅美国就面临着14万至19万名具有分析专长的人才短缺,以及150万名具备理解并基于大数据分析做出决策能力的管理人员和分析师的短缺”。

2014年,我们调查了数据科学家的数量,当时的估计为50名至10万名,且当时并没有看到数据科学家大量短缺的证据。2014年,我们在indeed.com网站上仅发现了约1000个“数据科学家”的招聘广告。

2016年,我们研究了德勤的一项研究。德勤在研究中预测:到2018年,企业将需要100万名数据科学家。

现在已经是2018年了,所以我们可以检验上述预测的准确程度,并且尝试回答以下三个问题:

1. 现在是否存在数据科学家的短缺?

2. 现阶段有多少“数据科学家”?无论是名义上的还是实际职能上的。

3. 数据科学家的未来前景如何

1 数据科学家短缺吗?

第一个问题的答案似乎是肯定的。

LinkedIn公司在2018年8月发布的美国劳动力报告中提到:“对数据科学家的需求空前高涨……具有数据科学技能的人才短缺问题几乎存在于美国的所有大城市。在全美国范围内,共缺少151717名具有数据科学技能的人,其中纽约市(34032人)、旧金山湾区(31798人)和洛杉矶(12251人)的人才短缺尤为严重。”

值得注意的是,LinkedIn报告中的人才短缺是指具有“数据科学技能”的人,而不一定是拥有“数据科学家”头衔的人。

我们可以通过两个热门的求职网站——indeed和Glassdoor——来估计对“数据科学家”的需求。

在indeed.com网站上搜索美国的“data scientist”(加引号),只能找到约4800个工作岗位。

(注意:在indeed网站上进行搜索时使用引号十分重要。搜索没有加引号的data scientist可以找到约3万个工作岗位,但我们不确定这些工作岗位中有多少是针对其他领域的科学家的。)

美国是数据科学家最大的市场,却非唯一的市场。通过在indeed的区域性站点(indeed.co.uk、indeed.fr、indeed.de、indeed.co.in等)上进行搜索,我们可以发现其他国家对数据科学家也有强烈的需求:

 ●  英国:1100个工作岗位
 ●  法国:718个工作岗位
 ●  德国:900个工作岗位
 ●  印度:500个工作岗位

在Glassdoor网站上输入“Data Scientist”进行搜索,可发现美国大约有2.6万个工作岗位(删除引号也会得到同样的结果)。

2 现阶段有多少“数据科学家”?

谷歌搜索将数据科学家定义为:“受雇用于分析和解释复杂的数字数据(如网站的使用统计数据)的人,从而协助企业做出决策。”

由于数据科学是集统计学、计算机科学、机器学习和商业于一体的交叉学科,因此在业界和学术界有许多人虽从事这项工作却没有正式的数据科学家头衔。因而我们可以通过调查流行的数据科学平台来估计当前数据科学家的数量。

Kaggle(现在是Google的一部分)是一个数据科学和数据分析的竞赛平台,它声称是世界上最大的活跃数据科学家社区。虽然并非所有数据科学家都参加过Kaggle比赛或拥有Kaggle账户,且并非Kaggle上的所有人员都从事数据科学工作,但我们可以合理地假设数据科学家群体与Kaggle人员群体存在大量重叠。 2017年6月,Kaggle的社区成员数量突破了100万。2018年9月19日的Kaggle电子邮件称,他们的社区成员数量在2018年8月超过了200万。由于并非所有Kaggle成员都是活跃的,所以Kaggle的社区成员总数可能是全球从事数据科学的人的数量最大值。

KDnuggets网站现在每个月有超过50万名独立访客,由于网站专注于帮助数据科学家和机器学习工程师更好地完成他们的工作,因而我们可以合理地认为网站的大多数访客都在数据科学或机器学习领域工作,无论他们的实际头衔是什么。但由于部分访客可能是无意中随机访问了KDnuggets,因而我们可以了解网站的订阅者或粉丝——这个更活跃的子集。

KDnuggets目前在Twitter、LinkedIn、Facebook、RSS和电子邮件上拥有约24万名订阅者或粉丝。虽然不同平台的人会有一些重叠,但对于全球众多的数据科学家来说,大约20万的人数预估似乎是合理的最小值。

在LinkedIn上,有许多致力于数据科学的组织。尽管这些组织的参与度一直在下降,但我们可以粗略地估计他们的成员数量。以下是三个最大的数据科学组织的预估成员数量:

 ●  大数据和分析——33.9万名;
 ●  数据科学中心——27.8万名;
 ●  数据挖掘、统计、大数据、数据可视化和数据科学——17万名。

这些组织成员的头衔有着巨大的多样性,这些头衔包括数据科学家、数据分析师、统计学家、生物信息学家、神经科学家、市场营销主管、计算机科学家等等……可以肯定地说,任何从事着传统数据科学家所从事的工作的人都可被认为属于这一类别。随着越来越多的人需要通过分析数据来获得见解或做出关键决策,传统上职位和职责不同的人们都热衷于学习数据分析这一新技术,以适应自己的领域。这虽然并不能使他们从根本上成为数据科学家,但他们确实拥有该领域的知识和才能。

我们还可以从数据科学家的LinkedIn个人资料中获取一些有用信息,这些资料显示有超过10万人拥有数据科学家头衔。

bab0fc65aa7a5ef7e0e332556334b5b82f746e9d

图1:LinkedIn数据科学家简介(按行业和地点分类)

在LinkedIn上搜索“数据科学家”(加引号很重要),我们发现超过10万人拥有该头衔。 因此,如果全球有20万到100万人在做一些与数据科学相关的工作,那么他们中的大多数人都没有数据科学家的头衔。

我们还可以通过查看与数据科学最相关的语言和平台(R、Python、机器学习库、Spark和Jupyter)相关的活动来估算大型数据分析/可视化/统计社区的规模。

Apache Spark Meetups上现有22.5万名成员,而且每个月都在增长。 Intel Capital估计全球有100万R程序员。 根据python.org网站上的公开数据,现在已有约275万次的下载量。 Jupyter项目目前拥有约300万用户。 这些数字可以为我们提供全球数据分析师或数据科学家数量的粗略上限。

3 数据科学家的未来前景

数据科学家近期的前景看起来很光明。

2017年的LinkedIn新兴就业报告称,2017年的机器学习工程师比5年前增加了9.8倍。 在LinkedIn报告上,机器学习工程师、数据科学家和大数据工程师跻身新兴岗位之列。 自2012年以来,数据科学家增加了650%以上。

a95b1dcecc937947c48eeebeca15e335319d88bd

图2:LinkedIn十大新兴职位及其增长情况(2012年至2017年)。

根据美国劳工统计局的数据,未来十年的就业增长预计将超过前十年的增长,到2026年数据科学或数据分析领域将创造1150万个就业岗位。

005f350c8e021f611122cbe024cd4e9134f275b7

IBM最近宣称,到2020年,数据科学和分析职位的数量预计将增加近36.4万个,达到约272万个。 因而无论目前数据专业人员的真实数量是多少,他们的数量在不久的将来很可能会继续增长。

然而,从长远来看,自动化将取代业内的许多工作,数据科学家的工作也不例外。 如今,DataRobot和H2O等公司已经为数据科学问题提供了自动化的解决方案。

2015年KDnuggets民意调查中的受访者认为,大多数专家级的预测分析或数据科学任务将在2025年实现自动化。为了保住工作岗位,数据科学家应该专注于培养更难自动化的技能,如业务理解、解释和讲故事的能力。


原文发布时间为:2018-10-16
本文作者:Gregory Piatetsk
本文来自云栖社区合作伙伴“ 数据分析”,了解相关信息可以关注“ 数据分析”。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 算法 搜索推荐
如何成为一名数据科学家?
9 月 28 日机器之心与大型创业社交平台燎原进行合作,举办了关于数据科学的线上讨论会。数据科学究竟是怎样起源兴起的?要怎样理解数据科学和计算机科学、统计学的关系?数据科学的应用价值到底体现在哪里?成为数据科学家需要具备哪些基本的知识储备?现在兴盛的各类数据大赛是怎么一回事?大数据时代「隐私」已死?
179 0
如何成为一名数据科学家?
|
机器学习/深度学习 云计算
独家 | 是什么让数据科学家从优秀变得伟大?
本文从目前数据科学行业发展角度出发,总结了顶级数据科学家必备的几项技能。
1081 0
|
Python 开发工具 git
独家 | 10个数据科学家常犯的编程错误(附解决方案)
本文为资深数据科学家常见的10个错误提供解决方案。
1416 0
想成为数据科学家?先做到这6点吧!
想成为数据科学家?先做到这6点吧!
1476 0
|
机器学习/深度学习 分布式计算 Python
数据分析师的自我修养,如何进阶为数据科学家
本文讲述如何从数据分析师进阶为数据科学家。
2025 0
|
机器学习/深度学习 算法 数据挖掘

热门文章

最新文章