在2016年的美国,数据科学家已经被冠以“最佳工作”的头衔,数据科学家的定义以及成为一名出色数据科学家所需的技能一直处于不断的变化之中。科技和商业需求方面的进步驱使着数据科学家随着行业的不断变化而不停的进化。在这片文章中,我们将会近距离的看一看在2016年当中,作为一名数据科学家应该扮演何种角色。
Dave Holtz写道,小小的“数据科学家”这样的岗位头衔,经常被充当一个空白头衔来用,其作用就是说明数据科学家这样的岗位所涉及到一系列工作,其实与其他工作有着天壤之别的差异。他把其中的原因归咎于数据科学领域仍然处于婴儿期并且人们对数据科学家的定义也并不是如此明确。采用了这样一个属于跨学科领域的包罗万象的头衔,数据科学家的工作就是从海量的数据当中以各种形式提取出人们所需要的知识或者是对于事物的洞察力。
大数据时代的年龄取决于我们自身,而且此刻它就停留在我们面前。现在我们收集到的数据量比以往任何时期都要庞大,而且伴随着时间的流逝,从数据中提取有价值的信息将会变得越来越错综复杂,并且需要更高超的技术。大数据经济背后的逻辑正在以难以想象和预测的方式影响着我们每个人的生活。我们日常生活中造就的每一个电子信息化的行为所产生的数据,最后都将会被用于数据统计,我们也可以借此洞察产业的发展。
作为消费者经济的参与者,当我们与任何一个网站或者电子化服务有所接触的时候,我们每个人都会被当成 数据挖掘 的对象,而且数据科学家就在那里使用计算机科学、统计分析学以及错综复杂的商业知识相结合的方式对我们提供的数据进行收集、清洗、分析以及预测。
下面这张图为我们展示了一名数据科学家所需要具备的技能组合。我们可以发现,和典型的大数据开发者或者商业分析专员相比,他的职责是多种技能和经验的有效组合。
图1:数据科学家的技能组合
是什么让数据科学家有别于他人,是看起来比较类似的数据工作吗?
Rivera和Haverson提示我们说,以前的数据专家总是把工作的精力集中到数据的演示和迁移,而数据科学家更趋向于从数学角度出发,主要精力在于从过去和目前的数据中鉴别出各种模式,并从中得到启发。如果从字面意思进行理解的话,“科学”表示通过系统性的学习而得到的知识;“数据”则意味着定性或定量变量的信息库——因此,从字面上看,一名数据科学家可以被定义为一个对组织和信息的属性进行系统性研究的人士。
尽管统计学家和其他研究数据分析的人士扮演着至关重要的角色,但是数据科学家的角色,就像Anjul Bhambari先生描述的那样,一部分是分析师,一部分是艺术家,并且必定会为传统数据的分析和使用方式带来全新的变革。
社会对数据科学家的需求与日俱增
商务人际网络LinkedIn的成功,就是一个数据科学家通过数据为商业智能带去好处和利益的鲜活案例。当一家企业主要依靠他拥有的三亿八千万用户之间互联的数据转换来盈利时,LinkedIn正在利用这些专业人才的好奇心来探寻大数据当中的新大陆。
LinkedIn和其他类似Facebook以及Google这样的知识产业正在利用数据科学家的角色将体量庞大且抽象的数据进行结构化建设,从数据值和变量之间的系统性关联当中界定其自身所蕴含的机密。
最近,由KPMG发起的一份调查报告显示,99%的被调查对象认为大数据分析对他们下一年的战略规划有着举足轻重的作用。等到了2020年,企业发展过程中每天产生的数据量将会超过240艾字节,到了那个时候,企业会发现,对于可以从庞大数据库中提取有价值信息的数据科学家的需求,将会比以前更重要。然而,一篇由Travis Wright撰写的文章说,对于数据科学家的需求将会远远超过目前社会能够提供的水平,并且单单在美国的那些公司就需要雇佣14万至19万名数据科学家,前提是这些公司会继续跟随数据经济带来的效益。
但是出乎我们意料的是,数据科学家的平均工资却存在着很多的矛盾,然而,我们清楚的是,该职位的平均工资确实会随着对数据科学家需求的增长迎来更高的工资待遇。如果雇主期待候选人可以拥有数据挖掘算法经验;能够完全使用像R和Python这样的语言开展工作;在大型数据库(类似SQL)方面有工作经验;可以执行Java应用;可以执行NoSQL数据库——并且候选人还可以和非专业技术人员交流以上所有工作方面的事宜,那么想得到约为12万美金的年薪看起来并非如此遥远的事情。
数据科学家的作用
尽管一名数据科学家的职能超越很多传统的数据分析师的职务,其中也有很多显而易见的区别。
一名数据分析师或建筑师能够从庞大的数据库当中提取信息。然而他们却被SQL查询和用于切割数据库的软件分析包所限制。通过使用机器学习的高级知识和编程/工程,数据科学家可以按照他们自己的意愿操作数据从而揭露出更深层次的发现。他们却不会因这些程序而受到约束。
典型的数据分析专员的做法就是回顾过去产生的数据以及所发生的事件,但是一名数据科学家的做法必须超越于此并着眼于未来。通过使用高级统计方式和复杂的数据建模,数据科学家必须发现其中的模式,还得对未来做出预测。
数据科学家需要具备的技能
成功的数据分析依赖于数据的清理、整合以及转换——关键的是,这需要所有数据科学家必须拥有所有技能的整合能力。如果将你自己的科学背景与计算和分析技巧相结合的话,完全可以让自己更上一层楼。
但还是让我们更深入的挖掘一下,成为一名数据科学家所需具备的实际技能吧。Data Floq公司的CEO,Mark van Rijmenam先生向我们推荐说,数据科学家应该具备以下的技能:统计、数学和伦理,当然也得包括相当高的预测建模经验,以便于为了找出正确的问题和相应正确的答案而构建出必要的算法。
尽管一位数据科学家可能执行的技能和不同的岗位职能很多,但来自LinkedIn的Ferris Jumah又进一步为我们整洁地归纳出所需的技能。
一名数据科学家必须:
- 用数学的思维方式看待数据。了解一些像机器学习、数据挖掘、数据分析以及统计方面的知识非常重要。一名数据科学家需要从数学的角度对数据进行诠释和演示。
- 使用通用语言进行数据的获取、开采以及建模。掌握统计编程语言也很重要。类似R,Python或者 MATLAB这样的语言,还有SQL这样的数据库查询语言也是当下最受欢迎且比较抢手的语言。数据提取、研究和假设测试是数据科学实践的核心。
- 培养强大的计算机科学和软件工程背景。这个要求数据科学家培养包括Java、C++或者算法和Hadoop方面的知识。这些技能可以用来建设数据系统。
图2:数据科学所关注的领域
数据科学家用到的工具
与典型的程序员不同的的是,程序员使用标准化的工具,而数据科学家趋向于使用大量的总是不断改进的工具。这是因为数据科学家的世界正在快速的进化,很多新的工具还不够成熟和完善。下面我们来列举一些所必要的工具:
数据分析工具:
这里所指的工具实际上仅仅是数据科学家使用的用于数据提取和分析的编程语言。较为典型的工具就是Python、R和 SQL。
数据仓库工具:
数据科学可以选择拥有自己的数据库,他们可以在这里进行数据的提取与分析。MySQL就是一款最受欢迎的处理体量较为合理的数据库的软件。当话题转到大数据领域时,他们通常会使用Hive或者Redshift这样的程序。也许你会吃惊的问,使用CSV文件的数据科学家还会支撑多久。
数据 可视化 工具:
我们经常提到的最普通的数据可视化工具是D3.js和Tableau。对于D3.js而言,如果你能想象出数据可视化的样子,那么你就可以利用这个软件达到你想要的结果。目前Tableau是最受欢迎的数据可视化软件,它可以使来自于数百条输入的编译数据轻而易举的转换为清晰可见的可视化效果。
机器学习工具:
机器学习领域内的刚出现的工具也许每天正处于不断变化之中。广泛使用的工具也许就非 Scikit-learn莫属了,该工具利用Python进行机器学习。之后当然还有SparkMLlib,这是Apache为自己的Spark 和Hadoop使用的机器学习资料馆。
本文作者:丑灿
来源:51CTO