4种数据科学工作,8项求职技能

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

【专题众筹】

为了更好的服务广大读者,大数据文摘发起《手把手教你XXX》专题众筹活动,XXX可以是“数据营销”“数据运营”“可视化”“数据安全”“数据治理”等系列文章,希望有能力愿分享的朋友一并参加,与我们一道推动数据思维、数据文化的传播。我们筹集的是大家的经验和时间,给大家的回报是(1)为各位参与者提供一个交流平台(2)文摘愿意免费宣传有贡献者个人及团队。有意者,请后台留言报名,谢谢!


“数据科学家”被誉为21世纪最性感的工作(Thomas Davenport和D.J. Patil在哈佛商业评论上曾发表的一篇文章中称),但如何成为一个数据科学家?怎样才能入门呢?许多的信息可能导致你认为成为一个数据科学家需要全面的精通一些领域,比如软件开发,数据整理,数据库,统计学,机器学习和数据可视化。


不用担心。从我作为一个数据科学家的经验来说,事实并非如此。你并不需要马上学会一辈子受用的与数据相关的信息和技能。与之相反,你要学会仔细阅读数据科学的职位描述,这将有助于申请那些你已经拥有必要的技能的职位,或者学习特定的数据技能以适应你想要的工作。


4种数据科学工作

“数据科学家”经常是被用来形容完全不同的工作的一个总称。这里有四种类型的数据科学工作:

数据科学家是住在旧金山(San Francisco)的数据分析师:

玩笑归玩笑,其实在一些公司数据科学家是数据分析员的代名词。你的工作可能包括从MySQL数据库中提取数据,成为Excel数据透视表的高手以及生成最基本的数据可视化(如线和条形图)。你可能偶尔分析一下A/ B测试的结果或负责公司的谷歌分析(Google Analytics) 账户。这样的公司是一个有抱负的数据科学家学习入门技术的好地方。一旦你熟悉你的日常事务,这样的公司可以为你创造一个尝试新事物和扩大新技能的环境。


请把我们的数据打包整理!

目前很多公司所处的状态是,他们有大量的流量(日益庞大的数据量),他们在找人建立能帮他们向前发展的数据基础设施,他们也找人来提供数据分析。你会看到这一类型的职位被列在“数据科学家”和“数据工程师”的职位列表里。因为你是第一个(或第一批之一)数据员工,可能比较容易出成果,所以你是一个统计专家或机器学习专家并不那么重要。一个拥有软件工程背景的数据科学家可能更容易在这样的公司有突出的表现,因为对这样的公司来说,更重要的是一个数据科学家能对产品代码做出更有意义的数据类的贡献并提供基本的见解和分析。在这样的公司,对初级数据科学家指导的机会可能更少。因此,你就会有很大的机会大放异彩,并且在磨练中成长,但是由于缺乏指导,你可能会面临更大的跌倒或停滞的风险。


我们就是数据,数据就是我们

还有许多公司,他们的数据(或他们的数据分析平台)就是他们的产品。在这种情况下,数据分析或机器学习的任务就会非常繁重。这可能对一个有正式的数学,统计学或物理学背景并希望继续走一条更学术的道路的人来说是更理想的环境。数据科学家在这样的环境中可能更专注于生产大数据驱动的产品,而不是回答公司业务问题。这一类的公司可能是面向消费者的拥有海量数据的公司或者以提供数据为基础的服务的公司。


大小合理的数据驱动的非数据公司:

很多公司都属于这一类。在这类公司中,你会加入一个由数据科学家组成的团队。你面试的公司关心数据,但可能不是一个数据公司。因此,进行数据分析,了解产品代码,将数据可视化等等,这些能力是同等重要的。一般来说,这些公司要么寻求通才,要么寻找一个能填补他们团队空缺的专才,比如数据可视化或机器学习方面的。面试这一类的公司的时候,比较重要的技能是熟悉“大数据”的专用工具(例如,Hive或Pig)以及有处理杂乱无章的真实数据集的经验。


希望这能帮你了解“数据科学家”的含义是多么广泛。以上四类公司在寻求拥有不同的技能,专长和经验水平的人。尽管如此,所有这些工作职位可能都是“数据科学家”,所以密切关注职位描述可以帮你了解你将加入什么样的团队以及需要哪些技术。



4种类型的数据科学工作以及从中分解的8项求职技能

8项求职技能

这是你应该掌握的8个数据科学的核心技能:


基本工具:无论你面试什么类型的公司,他们都会期望你知道如何利用一些基本的行业工具,包括统计编程语言,如R或Python,以及数据库查询语言,如SQL。


基本统计学:至少对统计学有基本的理解,这一点对于一个数据科学家来说是至关重要的。有一个面试官曾对我说,他面试过的很多人甚至无法提供p值的正确定义。你应该很熟悉统计检验,分布,最大似然估计等。回想一下你的基本统计课程!机器学习方面也是同样的情况,但是你的统计知识最大的作用是帮你理解各个技术是(或不是)一个有效的方法。在所有类型的公司中,统计学都是非常重要的,尤其是他们的产品不以数据为核心的数据驱动的公司,产品的利益相关者将依靠你的帮助来做决策以及设计/评估实验。


机器学习:如果你在一家拥有大量数据的大公司,或者公司的产品本身是数据驱动,那么你就要熟悉机器学习。这包括K-近邻算法,随机森林,集成方法 - 所有的机器学习流行语。事实上,很多这类的技术可以通过R或Python来实现 - 也正因为如此,即使你不是算法方面的权威专家也没关系,更重要的是要对算法有一个广泛的了解并且真正理解应该何时使用不同的技术。


多变量微积分和线性代数:实际上,你可能会在面试中被要求演算一些你在其它地方采用的机器学习或统计结果。即使不是如此,你的面试官可能会问你一些基本的多变量微积分或线性代数的问题,因为它们是很多数据分析技术的基础。你也许会奇怪,为什么一个数据科学家需要了解这些东西,即使在sklearn或R中已经有一堆现成的插入程序。答案是,在某些时候,一个数据科学团队需要建立他们自己的插入程序。理解这些概念在以数据定义其产品的公司显得尤为重要,预测性能或算法优化方面的小的改进可以导致公司巨大的胜利。

数据整理:很多时候,你分析的数据是混乱的,难以处理的。正因为如此,知道如何处理数据缺陷是真正重要的。数据缺陷的一些例子包括缺失值,不一致的字符串格式(例如,“New York”,“new york”与“ny”),以及日期格式(“2014-01-01”与“01/01/2014”,UNIX时间与时间戳等)。如果你是一家小公司的最早的数据员工,或者在产品不是与数据相关的数据驱动的公司,这项技能是最重要(特别是后者,往往因为迅速增长而没有太多的重视数据清洗)。不过,这项技能其实对每个人来说都很重要。


数据可视化与通信:可视化和数据通信是非常重要的,尤其是在第一次做数据驱动决策的年轻公司,或者在数据科学家被看作是帮助别人做数据驱动决策的公司。说到通信,这里是指用技术的和非技术的方式来向你的听众描述你的发现或技术原理。在可视化方面,熟悉数据可视化工具如ggplot和d3.js,是非常有帮助的。重要的是,不仅要熟悉必要的可视化数据的工具,而且要熟悉其背后的视觉编码数据和传输信息的原理。

软件工程:如果你要面试的是规模较小的公司,并且是第一批数据科学员工之一,那么有一个强大的软件工程背景对你来说是重要的。你将负责处理大量的数据记录,以及潜在的数据驱动产品的开发。


一个数据科学家的思维:公司希望看到你是一个(数据驱动)的问题解决者。也就是说,在你面试的过程中,你可能会被问到一些高层次的问题 - 例如,该公司可能要运行的一个测试,或想开发的一个数据驱动产品。重要的是要思考什么事情是重要的,什么事是不重要的。你,做为一个数据科学家,应该怎么样与工程师和产品经理互动?你应该使用什么样的方法?什么时候做近似评估是有意义?


数据科学仍然是新生的,不明确的一个领域。找工作的时候,就是要找到一家技能需求与你的技能相匹配并且有助于进一步发展那些技能的公司。写这篇文章是基于我自己的亲身经历 - 如果你已经在你自己的求职过程中有类似的(或相反)的经验,我也很想听听。


注:Dave是Airbnb的数据科学家。如果您想了解数据科学面试在Airbnb是怎么进行的,赖利·纽曼(Riley Newman)(Airbnb的数据科学部门的负责人)在Quora上写了一篇关于Airbnb的数据科学的招聘过程的文章。



原文发布时间为:2014-12-01

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
30498
分享
相关文章
|
10月前
|
干货|80天自学通过高级项目管理师
干货|80天自学通过高级项目管理师
302 0
技能进阶:成为 Scrum 熟练使用者——一个传统工业项目经理的转变之旅
本文分享了一位传统工业企业NPD项目经理从瀑布式流程转向Scrum敏捷管理的实践经验。起初对Scrum适应硬件开发存疑,通过培训与深入学习(如PSM I认证),逐步理解其核心理念。实践中,团队以短周期Sprint替代长计划,Daily Scrum提升沟通效率,Sprint Review让客户需求驱动开发。经过多轮迭代,作者从形式执行者转变为本质思考者,领悟到快速反馈、持续改进和团队自主性的重要性。总结指出,Scrum并非万能,但提供了应对复杂性的思维方式,成功关键在于文化转变而非单纯流程调整。
系统集成项目管理师:第一章信息化知识(选择题8-10分)
系统集成项目管理师:第一章信息化知识(选择题8-10分)
179 0
开发者“请回答”!HN 热帖“当你对软件开发感到失望,该如何规划职业道路?”
开发者“请回答”!HN 热帖“当你对软件开发感到失望,该如何规划职业道路?”
225 0
开发者“请回答”!HN 热帖“当你对软件开发感到失望,该如何规划职业道路?”
2021年成为数据科学家最需要学习的7项技能
2021年成为数据科学家最需要学习的7项技能
121 0
用SSM为学校教研室开发技能大赛评分系统
教师比赛系统总共分为三个阶段 第一个阶段是:教研室比赛阶段(同一个教研室的老师比赛),同一学院下多个教研室分别选取该教研室分数高的数人晋级到第二阶段:学院比赛。 第二个阶段是:学院比赛阶段:从第一阶段晋级过来的老师中选取分数最高的数名代表学院参加第三阶段(总决赛)比赛 第三个阶段是:总决赛:从第二阶段晋级来的选手比赛,排名,选出冠军、亚军、季军。
156 0
用SSM为学校教研室开发技能大赛评分系统
六石管理学:培训重点应该是工作技能
六石管理学:培训重点应该是工作技能
130 0