【译Py】数据科学面试终极指南01

简介: 封面.png原书地址:Springboard- Ultimate Guide to Data Science Interviews原著作者:Roger Huang、Sri Kanajan【译Py】数据科学面试终极指南【译Py...

img_d542c3d5920bb87f9b2662d94744a42a.png
封面.png

原书地址: Springboard- Ultimate Guide to Data Science Interviews
原著作者: Roger Huang、Sri Kanajan

【译Py】数据科学面试终极指南
【译Py】数据科学面试终极指南01
【译Py】数据科学面试终极指南02
【译Py】数据科学面试终极指南03
【译Py】数据科学面试终极指南04
【译Py】数据科学面试终极指南05
【译Py】数据科学面试终极指南06
【译Py】数据科学面试终极指南07
# 目录
* 译序
* 前言
* 什么是数据科学?
* 数据科学岗位
* 各类公司如何看待数据科学
  1. 开发数据产品的创业公司(200人及以下规模)
  2. 分析自有数据的创业公司(200人及以下规模)
  3. 分析自有数据的财富500强大中型公司
  4. 自有成熟数据团队的大型科技公司

* 聘用数据科学家的行业
* 获得数据科学面试机会
* 通往数据科学面试的九条途径
  * 获得面试机会的传统途径
    1. 官网招聘版块与标准求职
    2. 第三方招聘公司
    3. 参加招聘会
  * 获得面试机会的主动途径
    4. 组织或参加数据科学活动
    5. 打造自己的文集
    6. 参与开源项目或开放数据项目
    7. 参加数据科学竞赛
    8. 喝杯咖啡,信息化约谈
    9. 数据骇客松

* 与第三方招聘公司合作
* 如何提出求职申请
  * 简历 VS 领英
  * 求职信 VS 电子邮件
  * 请人推荐,让人脉为你服务
  * 准备面试

* 面试内容
  1. 电话面试
  2. 家庭作业
  3. 招聘经理电话面试
  4. 招聘经理现场面试
  5. 技术挑战
  6. 总监面试

* 数据科学岗位技能矩阵
* 数据科学岗位纵览
* 数据科学面试题
  * 行为试题
  * 数学试题
  * 统计学试题
  * 编程试题
  * 场景试题
  * 面试提示
* 招聘经理的想法
  * Will Kurt(Quick Sprout公司)访谈
  * Andrew Maguire (PMC/谷歌/Accenture) 访谈
  * Hirsto Gyoshev(MasterClass公司)访谈

* 求职者的成功经验
* 结论面试后要做的7件事
  1. 面试后,寄出感谢信,保持跟进
  2. 列出对面试问题的想法,寄给他们
  3. 把工作成果/家庭作业寄给招聘公司
  4. 保持联系,正确的方式
  5. 利用人脉
  6. 招聘被拒,更要表现出专业性
  7. 不要放弃希望

* Offer流程
  * 处理Offer
  * 薪资谈判
  * 上班前的准备

* 资料与数据
  * 名人名言
  * 核对清单
  * 模板
  * 术语库
  * 资源

* 关于作者

译序

  翻译这本小册子的缘起,一方面是看的译文书多了,英文书也多了,就不禁手痒、心痒,想看看自己能不能翻译,能翻译成什么样子;另一方面是学了一段数据科学,虽然写不出原创文章,也编不出漂亮的代码,但也想以自己的微薄之力,为这个社区,为很多和我一样努力向数据科学大门迈进的朋友做点贡献,恰巧在Springboard的网站上看到这本指南,免费、公开下载,我想应该没有什么版权问题。

  本指南介绍了数据科学的定义、各个数据科学岗位的技能要求、不同行业与公司招聘数据科学人员的侧重点、获取数据科学面试机会的途径、数据科学面试的详细流程、数据科学面试的试题种类与示例。为了更好地说明数据科学面试,作者采访了很多已经当上数据科学家的求职者,还有一些公司的数据科学主管,将他们的经验和想法整理出来,将来自数据科学第一线的思想呈现给大家,最后还列出了大量的资料、文献与数据,为求职者了解、应对数据科学面试提供了充足的弹药。

  本指南不仅能指导求职者应对数据科学面试,也可以帮助国内各行各业需要招募数据科学人才的公司了解数据科学的招聘流程、招聘重点,推动国内公司优化数据挖掘、数据分析、数据开发等数据科学体系的建立、健全,希望这次的翻译能帮助面试桌两边的朋友更好地了解数据科学。

  本指南的作者之一Roger Huang是位华人,在此,感谢他不辞辛劳搜集资料,采访了诸多数据科学专家,给我们呈现了这么一本完善的数据科学面试指南;本次翻译也得到了Roger的大力支持,帮我指点了不少翻译中的疑难问题,还主动帮我联系Springboard公司的副总裁,获得了他们对发表中文版翻译的许可。在此,对Roger表示深深的感谢!

前言

  说实话,我们没想到为Springboard编撰的《数据科学职业指南》会这么火爆,几天就有数千人订阅。说明数据科学虽然备受追捧,但是大多数人还是不知道该怎么上手,毕竟有关这行的实用资料太少了,这样的现实坚定了我们写下去的决心。

  和很多朋友交流后,我们发现介绍入行数据科学的文章真是屈指可数,现有资料大多只是个人经历或面试题集锦,很难找到从海投简历一直讲到胜任数据科学各岗位的系统性面试指南。

  我心目中的面试指南,要告诉大家面试桌两边的人都有什么想法。举荐求职者的第三方招聘公司、发放Offer的招聘经理,还有顺利通关的求职者,他们都是我关注的对象,我要讲述数据科学面试里各方人士的故事。为此,我和Sri Kanajan,纽约投行的资深数据科学家合著了本书

  Springboard培训过数千名数据科学学员,建立了庞大、专业的社区,为我们采集第一手资料提供了独特的优势。

  采集本书资料的过程十分艰难,比数据科学面试有过之而无不及。想当年,数据科学的领军人物,美国首席数据科学家DJ Patil等了足足半年才拿到Offer。现如今,好多公司都把数据科学面试搞得特别难,似乎只想招聘最专注、最专业的人才,有时候,就算这方面的高手都过不了关。当然啦,门槛越高,这一行的收入也越高。

  数据科学算得上是21世纪最性感的职业。数据科学家能带来重大的社会影响,绘制世界贫困地图、阻止疫情爆发、揭开Bansky的神秘身份,再加上一手预测三月疯狂赛季里篮球比分的绝活,数据科学家可不只是高收入、事业生活双丰收,还能干些真正了不起的大事

  编写本书的目的是引导对数据科学感兴趣的朋友找到数据科学工作。现在,一起来揭开成功通关数据科学面试的奥秘,助你大展身手吧!

什么是数据科学?

  开始数据科学面试前,首先要理解这个词的含义,然后还要搞明白数据科学都包括哪些工作内容。

美国首席数据科学家DJ Patil最先提出了数据科学这个概念。

  十年来,这一名词一直饱受争议,实干家与学院派对于数据科学涵义的论辩屡见不鲜,更可怕的是,他们的理念和数据分析公司常用的理念也不一样。只要一讨论大数据与机器学习数据解决方案,就会发现新词迭出,让人应接不暇。

  每个公司对数据科学的涵义都有自己的理解,招聘经理的理解也各不相同,大家都喜欢根据自己的理解来招聘和面试。数据科学定义随着公司和岗位变来变去,定义不清使得数据科学面试困难重重。

数据科学岗位

img_d56908ca2745b9257d38c0539d67614d.png
数据科学岗位划分

  下面用一个简单的数据科学项目说明数据科学的岗位。

  某数据科学团队想效仿Yelp团队利用深度学习技术识别图片。

  每天上传到Yelp的照片多达上百万张,很难为每家饭店找到适合显示的图片。有时上传的都是同类照片,要么是食物,要么是饭店外景,但是想全面评价一家饭店需要不同类别的图片。

  这个团队想利用机器学习分类照片,自动将照片纳入指定的类别。要实现这个目的需要帮助计算机利用训练集识别哪些照片是饭店外景,哪些照片只是食物。

  数据科学家负责搭建模型,让机器创建不同图片类别,要从用户标注过的照片和照片标题的关键字里提取所有相关的数据类型。这是个高端岗位,通常要全方位管理数据产品,搞定从算法选择到工程设计等方面的数据科学问题。

  数据工程师负责搭建系统,获取并存储所有图片数据,实现数据科学家选定的算法。这个岗位需要很强的技术实力,但是不需要深入理解算法理论。

  数据分析师负责查询数据、展示业务变化带来的影响。用户满不满意?最近的改版为Yelp带来了多少流量?这些都是数据分析师要提出和解答的问题,此外,数据分析师还要和其它岗位的同事沟通数据分析结果。这是个入门级的岗位,数据科学新人或有一定技术能力的业务人员就可以胜任。

  后文还会提到更多数据科学岗位。现在只要知道这三个数据科学岗的面试不一样就可以了,其实,大部分情况下,各个数据科学岗位的面试都不一样。

各类公司如何看待数据科学

  不但数据科学各岗位的面试要求不一样,各类公司对数据科学面试的要求也不一样。可以把公司大致划分为4类:

1. 开发数据产品的创业公司(200人及以下规模)

  欢迎来到硅谷的心脏,创业公司是技术人员的浪漫国度,很多创业公司短期内就能取得惊人的成绩。加入创业公司,要做好一人多职的心理准备,很多时候一个人要兼任三个数据科学岗位的工作,而且可能永远也得不到想要的资源,加班加点,累死累活更是家常便饭。

  这类公司的招聘门槛大多高的吓人。不管是为其它公司提供数据优化的平台,还是用机器学习分析数据集,这类公司都希望求职者具有很高的水平,他们对数据处理技能的要求远高于那些只处理内部数据的公司。这类公司的创始人大多都是数据科学精英,或者曾经当过大型数据科学团队的领导。他们招聘的都是顶级人才,要有丰富的从业经验、突出的发展潜力和强大的自我推动力。加入这样的公司可能是这辈子最好的学习机会,不过,也要做好面对数据科学顶尖挑战的心理准备。

公司示例:Looker、Mode Analytics与RJMetrics。
岗位实例:数据分析师(Looker),高级分析师(Mode Analytics)。


高级分析师
  Mode是一家为分析师服务的公司,我们的产品可以让分析师的工作效率更高、效果更好。我们的目标是为各行各业的分析师提供教育与激励服务。

  数据分析团队是实现这一目标的核心力量,身负两大使命。第一,服务于产品、营销和销售团队,协助他们制定更科学的决策。第二,为希望实现数据驱动转型的公司或分析师提供开源资料和分析服务。

岗位职责

  • 协同相关部门制定数据驱动的产品、营销与销售决策;
  • 定义核心指标,并进行跟踪;
  • 根据数据分析结果,为Mode找寻新的赢利点;
  • 与Mode社区分享工作成果;

我们心目中的人选

  • 善于沟通的演说家,不能只会编制华丽的可视图,还要能诠释数据内涵和对业务的影响;
  • 创意无限的思想家,善于提出问题、解决问题;
  • 技术过硬的开发者,精通SQL、R或Python、D3等可视化工具,具有开发数据工具和数据管道经验者优先;
  • 具有数据分析专业背景。

公司规模:143名员工使用领英(11-50人的公司规模)
岗位解读:本岗位的重点是沟通能力、数据库查询能力、利用编程语言实现数据可视化的能力,说明这是个业务岗,与相关团队沟通数据分析结果是必备能力。

2. 分析自有数据的创业公司(200人及以下规模)

  这类创业公司只分析自有数据,不向其它公司销售数据产品。因此,招聘门槛比前一类公司略低。不过分析自有数据对创业公司一样至关重要,因此这类公司的招聘门槛往往也会很高。

  IT类创业公司里技术天才很多,不过能为业务与技术搭桥的人才也不可或缺,要是公司里各部门对理解和使用数据各执己见,这样的人才就更重要了。在数据驱动型公司工作,要做好吃苦耐劳的心理准备,还要能不断拓展思路,为公司各部门采集数据、使用数据推荐新工具,制定新流程。

  在处理自有数据的公司工作,非常考验数据分析师的水平,要在公司里持续推广、强化数据驱动型的企业文化。赶紧提高自己的领导能力与沟通技巧吧!

  还有,B2B与B2C创业公司的数据问题也不一样。B2B是商对商,将软件产品直接卖给其它公司,Salesforce就是其一。B2C则是服务于广大消费者,比如亚马逊。B2B公司的数据量一般不大,但特别在意数据细节与数据特征。这类公司的客户主要是企业客户,数量不多,但都很重要,因为每个客户都会带来巨额收入。B2C公司的客户量极大,数据问题主要是数据规模庞大,过度关注消费者个体会分散其对消费者群体的注意力。B2B公司可能只有1000个客户,但每个客户每月可能会消费上千美元,而B2C公司可能有100000个用户,但每个用户每月能有1美元的收益就不错了。

  求职者一定要深入了解面试的公司及其数据问题,做足功课,确认能在该公司满怀激情地工作,具备的专业技能最好也要和该公司的岗位职责相匹配。

公司示例:Springboard、Branch、Rocksbox、Masterclass与Sprig
岗位实例:Branch公司 首席数据科学家,Rocksbox公司 数据(研究)科学家,Masterclass公司 数据科学家等。


数据科学家(决策科学家)
Masterclass
岗位职责
公司简介
  Masterclass致力于让来自世界各地的朋友都能获得最好的在线教育。演员为什么感情这么丰富?运动员怎么能抵抗地心引力?畅销书作者又是如何炼成的?我们的课程将对这些问题为您一一解密。作为我们的学员,您可以随时随地学习在线课程。至于那些天才宝宝,您可有福了,可以享受每节课一次免费试听的优惠待遇。

  我们是风投提供资金支持的创业公司,目前正处于高速发展期。公司位于旧金山,现已聘请各行各业的专家录制了大量在线课程,今后还有更多课程持续上线。2015年起,我们开始搭建自己的数据团队,现在就申请加入我们吧!
我们心目中的人选

  • 热爱分析。不管是统计分析、预测模型、用户调研、定性研究,还是商务智能或业务分析,这些分析领域都要有所涉猎。我们希望你能热爱数据项目涉及的各种分析工作;
  • 实用主义。成果导向、积极主动、动作迅速、无惧荆棘、高屋建瓴、主次分明。必要时可以在短时间内提供足够好的解决方案;
  • 科学思维。能深入钻研问题,提炼出可用于商务实战的假设推理;
  • 善于交往。具有丰富的沟通技巧,能够描述各类业务伙伴提出的模型、逻辑和含义;
  • 乐于学习。快速上手新工具与新技能,能打破瓶颈,推动项目开展;
  • 具有敏锐的商业洞察力、产品意识及系统思维。

公司规模:37名员工使用领英(11-50人的公司规模)
岗位解读:寻找乐于钻研问题的通才,能对各种数据分析结果进行沟通。说明这是个多面手型的数据科学岗位。胜任这个岗位需要有积极主动的工作态度,还要有创业精神。

3. 分析自有数据的财富500强大中型公司

  世界级的大公司深知使用自有数据的重要性。不少公司已经组建了强大的数据科学团队,并提供充足的资金支持,使其安心开展数据科学工作。这些数据团队有点像大公司内部的创业公司,帮助公司将数据转化为商务洞察结果。还有很多公司意识到数据对保持竞争力的重要性,为此不惜招募整个数据科学团队。利用好自身优势,说不定就能轻松通过这些知名大公司的数据科学面试。

  虽然这些公司的企业文化已经成形,甚至还有官僚作风,多多少少会给创新带来更多困难,但拥有百万客户数据可以为数据科学带来无限可能。以沃尔玛的采购数据为例,这可是百万量级的数据,分析结果会影响千万人的生活。

  虽然这类公司一般不会研发尖端数据科学解决方案,但处理他们的数据集依然是一种挑战,和他们的精英员工一同工作,也能让你受益匪浅。

公司实例:沃尔玛、JP摩根、摩根斯坦利、可口可乐、第一资本
岗位示例:摩根斯坦利 数据科学家与建模师 ,第一资本 数据工程师


数据工程师
职位ID:R5046
发布日期:2016年6月16日
工作所在地:弗吉尼亚州,麦克林市

  第一资本是业内领先的高科技信息技术公司。在公司创始人、董事长与CEO,Richard Fairbank的引领下,多年以来,我们一直努力为客户提供独创、精简和人性的银行服务,我们以帮助客户取得成功为使命,客户的成功就是我们的成功,客户的满意就是我们的标准。
  在共同价值观的指导下,我们视合作与开放为核心价值,相信快人一步的创新、同心协力的团队,只要互相扶持,以做正确的事情为准则,必能创造卓越的成就。我们的合伙人为客户服务尽心尽力,全力协助客户达成目标、实现梦想,共同为把银行业变得更好而努力。
我们心目中的人选
  想用数据引爆软件的能量吗?开发过引以为豪的应用吗?喜欢优雅的数据解决方案吗?第一资本正在寻求一位资深数据工程师,能够开发语言优雅、扩展性强的数据解决方案,通过内外部客户触点,改变业界游戏规则,提交用户体验分析成果。
  作为引领下一波新浪潮的银行客户团队成员,您将领导整个团队不断完善第一资本的生态系统,最终创建技术为王的企业文化。您的职责涉及引入Kafka消息队列技术,落实Hadoop、Dynamo、Redshift、Cassandra、Mongo等大数据解决方案、实现API、微服务及分布式处理等。


公司规模: 超过30,000名员工使用领英(10,000+人的公司规模)
岗位解读:关注大数据工具,说明这是个非常专业的岗位,需要掌控第一资本庞大的数据资源。

4. 自有成熟数据团队的大型科技公司

  大型科技公司也在不断孵化成长,他们对数据的痴迷源于当年创业公司的初心,只不过他们的数据规模已经达到甚至超过了百万量级。优步、Airbnb、Facebook和谷歌等世界级大公司有着业界顶尖精英领导的技术团队,这类公司的数据科学人才专业性极高,可以用最狂野的革新思想应对最前沿的数据问题。

  如果你渴望挑战、向往处理大规模数据,一定要加入这些顶级公司。虽然在这里你的优势不如在创业公司明显,但是这些公司福利好、薪资高、团队成员极其优秀 — 就算将来想换工作,这里的工作履历也能让你的简历高人一等。

公司实例:Facebook、谷歌、Airbnb
岗位示例:Oculus 数据分析师,Airbnb 机器学习数据分析师


数据与分析
数据科学家、数据分析师(Oculus)
  Facebook对促进世界沟通与共享做出了巨大的贡献,过去的十年里,我们的产品改变了整个世界的沟通方式。我们在全球超过五十个国家设立了分公司,十几亿人使用我们的产品与服务,在Facebook工作为您提供了无限的可能。Facebook对促进世界沟通与共享做出了巨大的贡献,过去的十年里,我们的产品改变了整个世界的沟通方式。我们在全球超过五十个国家设立了分公司,十几亿人使用我们的产品与服务,在Facebook工作为您提供了无限的可能。

  我们的子公司Oculus一直在寻觅既热衷于虚拟现实,还能驱动数据化业务决策的数据产品科学家。在这里,您可以操控世界上最复杂的数据集、使用最前沿的技术,在日常工作中,您的洞察结果将会变为影响整个世界的产品。理想的求职者要有量化分析与技术背景,具有操作大规模数据集和数据驱动决策的经验。应当关注结果、积极主动、能够使用数据分析技术带动产品理研发理念、促进产品开发,最终推出成功的产品。


公司规模:16,715名员工使用领英(10,000+人的公司规模)
岗位解读:本岗位指出求职者应该是敢于创新的全面型人才,属于开放式数据科学岗,招聘方希望求职者能推动新项目的开展,自始至终引导团队开展工作。

【译Py】数据科学面试终极指南
【译Py】数据科学面试终极指南01
【译Py】数据科学面试终极指南02
【译Py】数据科学面试终极指南03
【译Py】数据科学面试终极指南04
【译Py】数据科学面试终极指南05
【译Py】数据科学面试终极指南06
【译Py】数据科学面试终极指南07
相关文章
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。
【7月更文挑战第5天】了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。数据预处理涉及缺失值(dropna(), fillna())和异常值处理。使用describe()进行统计分析,通过Matplotlib和Seaborn绘图。回归和分类分析用到Scikit-learn,如LinearRegression和RandomForestClassifier。
88 3
|
6月前
|
机器学习/深度学习 算法 前端开发
2024年8个可以提高数据科学工作效率并节省宝贵时间的Python库,2024年最新记得把每一次面试当做经验积累
2024年8个可以提高数据科学工作效率并节省宝贵时间的Python库,2024年最新记得把每一次面试当做经验积累
2024年8个可以提高数据科学工作效率并节省宝贵时间的Python库,2024年最新记得把每一次面试当做经验积累
|
6月前
|
数据采集 机器学习/深度学习 数据可视化
数据科学面试准备:解决Python数据分析常见问答和挑战
【4月更文挑战第12天】本文介绍了Python数据分析面试中常见的问题和挑战,涉及Pandas、NumPy、Matplotlib等库的基础知识,以及数据预处理、探索性分析、可视化、回归分析和分类分析的方法。例如,使用Pandas处理缺失值和异常值,利用Matplotlib和Seaborn进行数据可视化,通过Scikit-learn进行回归和分类模型的构建。
191 2
|
Java 程序员 云栖大会
9月20日云栖精选夜读 | 如何轻松搞定数据科学面试:Python&R语言篇
对于数据科学家来说,工作的一大部分都需要在交互式编程环境中对数据进行处理、分析和可视化。 在过去几年,R语言和Python成了进行数据科学中最炙手可热的两种语言。这两种语言各有优缺点,掌握这两种语言大有益处,但是针对面试者而言,最好的方式是学习其中一种并熟练掌握。
3125 0
|
SQL 算法 大数据
【译Py】数据科学面试终极指南03
【译Py】数据科学面试终极指南 【译Py】数据科学面试终极指南01 【译Py】数据科学面试终极指南02 【译Py】数据科学面试终极指南03 【译Py】数据科学面试终极指南04 【译Py】数据科学面试终极指南05 【译Py】数据科学面试终极指南06 【译Py】数据科学面试终极指南07 准备面试   希望为争取数据科学面试机会所做的一切都有回报,收到代表开启面试流程的邮件,或者有公司打电话叫你去面试。
|
3月前
|
存储 Java
【IO面试题 四】、介绍一下Java的序列化与反序列化
Java的序列化与反序列化允许对象通过实现Serializable接口转换成字节序列并存储或传输,之后可以通过ObjectInputStream和ObjectOutputStream的方法将这些字节序列恢复成对象。
|
23天前
|
算法 Java 数据中心
探讨面试常见问题雪花算法、时钟回拨问题,java中优雅的实现方式
【10月更文挑战第2天】在大数据量系统中,分布式ID生成是一个关键问题。为了保证在分布式环境下生成的ID唯一、有序且高效,业界提出了多种解决方案,其中雪花算法(Snowflake Algorithm)是一种广泛应用的分布式ID生成算法。本文将详细介绍雪花算法的原理、实现及其处理时钟回拨问题的方法,并提供Java代码示例。
54 2
|
27天前
|
JSON 安全 前端开发
第二次面试总结 - 宏汉科技 - Java后端开发
本文是作者对宏汉科技Java后端开发岗位的第二次面试总结,面试结果不理想,主要原因是Java基础知识掌握不牢固,文章详细列出了面试中被问到的技术问题及答案,包括字符串相关函数、抽象类与接口的区别、Java创建线程池的方式、回调函数、函数式接口、反射以及Java中的集合等。
24 0
|
3月前
|
XML 存储 JSON
【IO面试题 六】、 除了Java自带的序列化之外,你还了解哪些序列化工具?
除了Java自带的序列化,常见的序列化工具还包括JSON(如jackson、gson、fastjson)、Protobuf、Thrift和Avro,各具特点,适用于不同的应用场景和性能需求。