4类数据科学工作和8个让你被录用的技能

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:



想找一份数据科学家的工作?这是个正确的决定!


哈佛商业评论最近刊登了一篇由Thomas Davenport 和 D.J. Patil 共同撰写的文章,称数据科学家是二十一世纪最性感的工作。


但是你要怎么进入这个行业呢?


许多资源也许会让你以为,成为一个数据科学家需要全方面掌握一些领域,例如软件开发,数据修改,数据库,统计学,机器学习和数据可视化。


不必担心。以我作为一个数据科学家的经验,事实并非如此。你不需要尽可能快地学习值得一生知道与数据相关的信息和技能。相反,要学会仔细阅读数据科学类工作的描述。这将使你能够申请你已经拥有必要技能的工作,或者去掌握你想要匹配的工作的特定数据技能。


◆ 

4种数据类型工作


数据科学家是经常被用做描述那些截然不同的工作的一个总称。这里有四种类型的数据科学工作:


一、数据科学家是住在旧金山的数据分析师


除了开玩笑之外,实际上在有一些公司担当数据科学家就等同于担当一个数据分析师。你的工作可能包括从MySQL数据库中提取数据,成为一个Excel数据透视表的大师,并且生成基础的数据可视化(例如,线状和柱状图)。你有时分析A/B测试的结果或者主要负责你们公司的Google分析账户。像这样的公司对有抱负的数据科学家是一个摸到窍门的好地方。一旦你对你日常职责有所了解,一个像这样的公司会是一个尝试新事物和提升技能的好环境。


二、请查看我们的数据!


似乎有许多公司达到了拥有大量流量(越来越多的大量数据)的地步,并且他们寻求某人来建立公司需要向前迈进的大量数据基础设施。他们也在寻找某人提供分析。你会看到招聘公告在“数据科学家”和“数据工程师”下列出。由于你是最初的数据招聘(的一员),这里可能有许多短期内绝佳的机会,使你是一个统计学或者机器学习专家变得次要。


一个有软件工程背景的数据科学家可能在这样的公司表现突出,更重要的是数据科学家对生产代码做出了有意义的数据贡献并提供了基本的见解和分析。初级数据科学家的指导机会可能在这样的公司不太丰富。因此,你会有很大的机会去闪耀和成长通过火的考验,但会有更少的指导,你可能会面临更大的下滑或停滞的风险。


三、我们是数据,数据是我们


有许多公司,数据(或者数据分析平台)就是他们的产品。在这种情况下,数据分析或机器学习将是相当激烈的。这可能是一个有正式的数学、统计、或物理背景的人的理想情况,并希望能继续走一个更学术的道路。相比于他们回答公司的经营问题,这种类型的数据科学家可能更侧重于生产大数据驱动的产品。属于这一群体的公司可能是面向消费者的公司,这些公司拥有大量的数据或是提供基于数据的服务。

 

四、数据驱动的大规模的非数据公司


很多公司都属于这个类型。在这种类型的公司里,你会加入一个由其它数据科学家组成的已有的团队。你面试的公司关心数据,但可能不是一个数据公司。同样重要的是你可以进行分析,触碰产品代码,可视化数据,等等。一般来说,这些公司要么找通才,要么他们正在填补一个特定的他们觉得自己的团队缺乏的职位,如数据可视化或机器学习。当在这些公司的面试时,一些更重要的技能是熟悉对 “大数据”的工具设计(例如,Hive 或者 Pig)和处理杂乱的、“现实生活”的数据集的经验。


希望这能给你对于 “数据科学家”这个职位有多宽泛有一个认识。四种上述公司的“人格”是寻求不同的技能、知识和经验水平。尽管如此,这些招聘职位都很可能会说是“数据科学家”,所以仔细观察一下你的工作描述,对于你会加入什么样的团队有一个认识,并了解需要发展什么技能。




◆ 

你应该培养的8大数据科学核心技能


1、基本工具(Basic Tools):无论你面试的是什么类型的公司,你都会被期望知道如何使用该行业的工具。这意味着你应该知道一种统计编程语言(如R或Python)和一种数据库查询语言(如SQL)。


2、基本统计(Basic Statistics):至少对统计数据有基本了解对成为数据科学家至关重要。一个面试官曾经告诉我,他面试的许多人甚至不能说出P值(p-value)的正确定义。


你应该熟悉统计检验、分布、最大似然估计等。请回想一下你的基础统计课程!不仅机器学习的情况是如此,一个更重要的关于你统计知识的方面是理解不同的技术在什么时候是(或不是)一个有效的方法。统计对所有的公司类型都很重要,特别是数据驱动的公司,这些公司的产品不是以数据为中心的,但产品利益相关者将依靠你的帮助做出决策和设计/评估实验。


3、机器学习(Machine Learning)如果你在一家拥有大量数据的大型公司,或者在一家其产品本身是数据驱动的公司工作,那么你可能会想要熟悉机器学习方法。这意味的是像k-最近邻、随机森林、集成方法的所有流行的机器学习方法。很多这些技术都可以使用RPython库实现 - 因为这一点是真实的,所以即使你不是知道这些算法如何工作的世界首席专家,你也不一定是一个交易破坏者。更重要的是理解其大致框架,并且真正了解在什么时候适当地使用不同的技术。


4、多变量微积分和线性代数(Multivariable Calculus and LinearAlgebra)事实上,你可能会在面试中被要求获得一些你在其他一些地方使用的机器学习或统计结果。即使你没被要求,你的面试官可能会问你一些基本的多变量微积分或线性代数问题,因为它们构成了很多这些技术的基础。你可能想知道即使在sklearn或者R中有一堆开箱即用的实现工具,为什么数据科学家需要理解这个东西。答案是,在某一特定情况下,一个数据科学团队需要在公司内部自己实现时,它就变得值得了。了解这些概念对于那些产品由数据定义的公司来说是最重要的,同时预测性能的小改进或算法的优化可以为公司带来巨大的成功。


“数据科学家”经常被一揽子的用来描述那些截然不同的工作。


5、数据清理(Data Munging)通常,你正在分析的数据会是混乱并且难以使用的。正因为如此,知道如何处理数据中的缺陷非常重要。数据缺陷的一些例子包括缺失值、字符串格式不一致(例如,“New York”与 “new york”与“ny”)和日期格式(“2014-01-01”与“01/01/2014”,unix时间与时间戳timestamps等)。这对于在早期数据租用的小公司或者产品不是数据相关的数据驱动型公司(特别是后者,因为其通常快速成长而不太注意数据清洁度)是最重要的,但这个技能对每个人都很重要。


6、数据可视化和沟通(DataVisualization & Communication)可视化和交流数据是非常重要的,特别是在首次进行数据驱动决策的年轻公司,或者在数据科学家被视为帮助他人做出数据驱动决策的公司。当谈到沟通时,这意味着你要向观众描述你的发现或技术工作的方式(包括技术和非技术上的)。可视化方面,熟悉数据可视化工具(如ggplotd3.js)是非常有用的。重要的是不仅要熟悉可视化数据所需的工具,而且要了解可视化编码数据和交流信息背后的原则。


7、软件工程(SoftwareEngineering)如果你面试的是一家较小的公司,而且应聘的是首批数据科学人员之一,有一个强大的软件工程背景会很重要。你将负责处理大量的数据记录,以及潜在的数据驱动产品的开发。


8、像数据科学家一样思考(Thinking Like AData Scientist)公司希望看到你是一个(数据驱动)问题的解决者。也就是说,在面试过程中的某个时候,您可能会被问及一些高层次的问题 - 例如,公司可能想要运行的一个测试或公司可能想要开发的一种数据驱动产品。重要的是要考虑什么是重要的,什么是不重要的。作为数据科学家,你应该如何与工程师和产品经理互动?你应该使用什么方法?近似方法在什么时候有意义?


数据科学仍然是一个新兴和不明确的领域。获得一份工作既是寻找一个与你的技能相匹配的公司,又是发展这些技能。这篇文章是基于我自己的亲身经历 - 我很乐意听到你在自己应聘的过程中是否有类似(或相反)的经历。

原文发布时间为:2016-11-10

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据建模 程序员 持续交付
系统分析师笔记-案例分析-软件开发方法
系统分析师笔记-案例分析-软件开发方法
|
1月前
|
数据采集 机器学习/深度学习 算法
探索数据科学家的日常:揭秘职业背后的故事
探索数据科学家的日常:揭秘职业背后的故事
53 10
|
机器学习/深度学习 SQL 分布式计算
推荐算法工程师需要掌握哪些核心技能点?(二)
推荐算法工程师需要掌握哪些核心技能点?(二)
377 1
推荐算法工程师需要掌握哪些核心技能点?(二)
|
机器学习/深度学习 人工智能 算法
推荐算法工程师需要掌握哪些核心技能点?(一)
推荐算法工程师需要掌握哪些核心技能点?(一)
1004 0
推荐算法工程师需要掌握哪些核心技能点?(一)
|
机器学习/深度学习 人工智能 算法
数据科学家是不是特有前途的职业?
人工智能和大数据热起来。无数培训班开始靠讲Python、机器学习等课大赚其钱,大学里的那些稍沾点边的商科专业都开始设立建模预测的课程。在企业里收到的简历也是越来越多地号称耍过神经网络、深度学习,经历过N多建模预测的项目。未来的职场,看起来会有满世界的数据科学家。
147 0
|
Java Linux 项目管理
六石管理学:培训重点应该是工作技能
六石管理学:培训重点应该是工作技能
130 0
|
程序员 数据安全/隐私保护
冰河公开了其总结的一项重要的编程技能!
熟练的掌握正则表达式,能够帮助程序员以最快的速度写出最优雅的代码。冰河在多年的编程工作中,对使用过的正则表达式进行了梳理和总结,这些正则表达式能够帮助你节省很多的编码时间,往往一个简单的正则表达式就能够省略大量的if...else...代码。这次,冰河向小伙伴们公开了自己平时经常使用的正则表达式,希望能够为小伙伴们带来实质性的帮助。
143 0
|
机器学习/深度学习 算法 搜索推荐
简析市场营销中的 六 大数据科学用例
阿里云数据中台专家简要分析当前市场营销中心的六大数据科学用例。
2546 0
简析市场营销中的 六 大数据科学用例
|
SQL 机器学习/深度学习 分布式计算
2019数据科学家最需要的技能盘点,Python大火,Pytorch职位需求翻番
2018年medium上一篇博文分析了数据科学家最需要的技能,那篇文章引起了很大的反响,在medium上有超过11000次点赞,并被翻译成几种语言,成为了2018年11月KD Nuggets最受欢迎的文章。
1707 0
2019数据科学家最需要的技能盘点,Python大火,Pytorch职位需求翻番
|
机器学习/深度学习
经历多个数据科学岗位后,对于数据科学面试他分享了以下求职心得
作者拥有多份数据科学求职的经验,现在分享给各位小伙伴。
5845 0