4类数据科学工作和8个让你被录用的技能-阿里云开发者社区

开发者社区> 大数据文摘> 正文

4类数据科学工作和8个让你被录用的技能

简介:


0?wx_fmt=png

想找一份数据科学家的工作?这是个正确的决定!


哈佛商业评论最近刊登了一篇由Thomas Davenport 和 D.J. Patil 共同撰写的文章,称数据科学家是二十一世纪最性感的工作。


但是你要怎么进入这个行业呢?


许多资源也许会让你以为,成为一个数据科学家需要全方面掌握一些领域,例如软件开发,数据修改,数据库,统计学,机器学习和数据可视化。


不必担心。以我作为一个数据科学家的经验,事实并非如此。你不需要尽可能快地学习值得一生知道与数据相关的信息和技能。相反,要学会仔细阅读数据科学类工作的描述。这将使你能够申请你已经拥有必要技能的工作,或者去掌握你想要匹配的工作的特定数据技能。


◆ 

4种数据类型工作


数据科学家是经常被用做描述那些截然不同的工作的一个总称。这里有四种类型的数据科学工作:


一、数据科学家是住在旧金山的数据分析师


除了开玩笑之外,实际上在有一些公司担当数据科学家就等同于担当一个数据分析师。你的工作可能包括从MySQL数据库中提取数据,成为一个Excel数据透视表的大师,并且生成基础的数据可视化(例如,线状和柱状图)。你有时分析A/B测试的结果或者主要负责你们公司的Google分析账户。像这样的公司对有抱负的数据科学家是一个摸到窍门的好地方。一旦你对你日常职责有所了解,一个像这样的公司会是一个尝试新事物和提升技能的好环境。


二、请查看我们的数据!


似乎有许多公司达到了拥有大量流量(越来越多的大量数据)的地步,并且他们寻求某人来建立公司需要向前迈进的大量数据基础设施。他们也在寻找某人提供分析。你会看到招聘公告在“数据科学家”和“数据工程师”下列出。由于你是最初的数据招聘(的一员),这里可能有许多短期内绝佳的机会,使你是一个统计学或者机器学习专家变得次要。


一个有软件工程背景的数据科学家可能在这样的公司表现突出,更重要的是数据科学家对生产代码做出了有意义的数据贡献并提供了基本的见解和分析。初级数据科学家的指导机会可能在这样的公司不太丰富。因此,你会有很大的机会去闪耀和成长通过火的考验,但会有更少的指导,你可能会面临更大的下滑或停滞的风险。


三、我们是数据,数据是我们


有许多公司,数据(或者数据分析平台)就是他们的产品。在这种情况下,数据分析或机器学习将是相当激烈的。这可能是一个有正式的数学、统计、或物理背景的人的理想情况,并希望能继续走一个更学术的道路。相比于他们回答公司的经营问题,这种类型的数据科学家可能更侧重于生产大数据驱动的产品。属于这一群体的公司可能是面向消费者的公司,这些公司拥有大量的数据或是提供基于数据的服务。

 

四、数据驱动的大规模的非数据公司


很多公司都属于这个类型。在这种类型的公司里,你会加入一个由其它数据科学家组成的已有的团队。你面试的公司关心数据,但可能不是一个数据公司。同样重要的是你可以进行分析,触碰产品代码,可视化数据,等等。一般来说,这些公司要么找通才,要么他们正在填补一个特定的他们觉得自己的团队缺乏的职位,如数据可视化或机器学习。当在这些公司的面试时,一些更重要的技能是熟悉对 “大数据”的工具设计(例如,Hive 或者 Pig)和处理杂乱的、“现实生活”的数据集的经验。


希望这能给你对于 “数据科学家”这个职位有多宽泛有一个认识。四种上述公司的“人格”是寻求不同的技能、知识和经验水平。尽管如此,这些招聘职位都很可能会说是“数据科学家”,所以仔细观察一下你的工作描述,对于你会加入什么样的团队有一个认识,并了解需要发展什么技能。


0?wx_fmt=png

◆ 

你应该培养的8大数据科学核心技能


1、基本工具(Basic Tools):无论你面试的是什么类型的公司,你都会被期望知道如何使用该行业的工具。这意味着你应该知道一种统计编程语言(如R或Python)和一种数据库查询语言(如SQL)。


2、基本统计(Basic Statistics):至少对统计数据有基本了解对成为数据科学家至关重要。一个面试官曾经告诉我,他面试的许多人甚至不能说出P值(p-value)的正确定义。


你应该熟悉统计检验、分布、最大似然估计等。请回想一下你的基础统计课程!不仅机器学习的情况是如此,一个更重要的关于你统计知识的方面是理解不同的技术在什么时候是(或不是)一个有效的方法。统计对所有的公司类型都很重要,特别是数据驱动的公司,这些公司的产品不是以数据为中心的,但产品利益相关者将依靠你的帮助做出决策和设计/评估实验。


3、机器学习(Machine Learning)如果你在一家拥有大量数据的大型公司,或者在一家其产品本身是数据驱动的公司工作,那么你可能会想要熟悉机器学习方法。这意味的是像k-最近邻、随机森林、集成方法的所有流行的机器学习方法。很多这些技术都可以使用RPython库实现 - 因为这一点是真实的,所以即使你不是知道这些算法如何工作的世界首席专家,你也不一定是一个交易破坏者。更重要的是理解其大致框架,并且真正了解在什么时候适当地使用不同的技术。


4、多变量微积分和线性代数(Multivariable Calculus and LinearAlgebra)事实上,你可能会在面试中被要求获得一些你在其他一些地方使用的机器学习或统计结果。即使你没被要求,你的面试官可能会问你一些基本的多变量微积分或线性代数问题,因为它们构成了很多这些技术的基础。你可能想知道即使在sklearn或者R中有一堆开箱即用的实现工具,为什么数据科学家需要理解这个东西。答案是,在某一特定情况下,一个数据科学团队需要在公司内部自己实现时,它就变得值得了。了解这些概念对于那些产品由数据定义的公司来说是最重要的,同时预测性能的小改进或算法的优化可以为公司带来巨大的成功。


“数据科学家”经常被一揽子的用来描述那些截然不同的工作。


5、数据清理(Data Munging)通常,你正在分析的数据会是混乱并且难以使用的。正因为如此,知道如何处理数据中的缺陷非常重要。数据缺陷的一些例子包括缺失值、字符串格式不一致(例如,“New York”与 “new york”与“ny”)和日期格式(“2014-01-01”与“01/01/2014”,unix时间与时间戳timestamps等)。这对于在早期数据租用的小公司或者产品不是数据相关的数据驱动型公司(特别是后者,因为其通常快速成长而不太注意数据清洁度)是最重要的,但这个技能对每个人都很重要。


6、数据可视化和沟通(DataVisualization & Communication)可视化和交流数据是非常重要的,特别是在首次进行数据驱动决策的年轻公司,或者在数据科学家被视为帮助他人做出数据驱动决策的公司。当谈到沟通时,这意味着你要向观众描述你的发现或技术工作的方式(包括技术和非技术上的)。可视化方面,熟悉数据可视化工具(如ggplotd3.js)是非常有用的。重要的是不仅要熟悉可视化数据所需的工具,而且要了解可视化编码数据和交流信息背后的原则。


7、软件工程(SoftwareEngineering)如果你面试的是一家较小的公司,而且应聘的是首批数据科学人员之一,有一个强大的软件工程背景会很重要。你将负责处理大量的数据记录,以及潜在的数据驱动产品的开发。


8、像数据科学家一样思考(Thinking Like AData Scientist)公司希望看到你是一个(数据驱动)问题的解决者。也就是说,在面试过程中的某个时候,您可能会被问及一些高层次的问题 - 例如,公司可能想要运行的一个测试或公司可能想要开发的一种数据驱动产品。重要的是要考虑什么是重要的,什么是不重要的。作为数据科学家,你应该如何与工程师和产品经理互动?你应该使用什么方法?近似方法在什么时候有意义?


数据科学仍然是一个新兴和不明确的领域。获得一份工作既是寻找一个与你的技能相匹配的公司,又是发展这些技能。这篇文章是基于我自己的亲身经历 - 我很乐意听到你在自己应聘的过程中是否有类似(或相反)的经历。

原文发布时间为:2016-11-10

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据文摘
使用钉钉扫一扫加入圈子
+ 订阅

官方博客
官网链接