如何成为一名数据科学家?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 9 月 28 日机器之心与大型创业社交平台燎原进行合作,举办了关于数据科学的线上讨论会。数据科学究竟是怎样起源兴起的?要怎样理解数据科学和计算机科学、统计学的关系?数据科学的应用价值到底体现在哪里?成为数据科学家需要具备哪些基本的知识储备?现在兴盛的各类数据大赛是怎么一回事?大数据时代「隐私」已死?

从人类发展至今,有历史即有数据。然而随着互联网的高速发展与当下的信息不对称现状,数据正在变得越来越繁杂,也越来越具有价值。


早在 2011 年,McKinsey 公司就预测到 2018 年,仅在美国本土就可能面临缺乏 19 万具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业做出有效决策的数据管理人员和分析师也有 150 万人的缺口,美国专业招聘公司罗致恒富(Robert Halt)公布的《2015 薪资指南(2015 salary guide)》也已把大数据人才列为薪资涨幅最大的六大行业之一。数据科学家(data scientist)正在作为企业数据分析的核心岗位,受万众瞩目。


9 月 28 日机器之心与大型创业社交平台燎原进行合作,举办了关于数据科学的线上讨论会。数据科学究竟是怎样起源兴起的?要怎样理解数据科学和计算机科学、统计学的关系?数据科学的应用价值到底体现在哪里?成为数据科学家需要具备哪些基本的知识储备?现在兴盛的各类数据大赛是怎么一回事?大数据时代「隐私」已死?


活动中,数据应用学院(Data Application Lab)的创始人耿杰森和资深数据科学家陈允喻结合了自身的专业领域和工作经验,和我们分享了他们眼中的数据科学的世界。


10377DF9-839E-4917-A48D-E82603ED9D83.jpeg


以下内容为这次活动的文字版,请大家继续关注机器之心 SYNCED talk 系列线上活动。


116473A3-B619-4888-B1B4-BFB1D1DC8E12.jpeg


Synced:大家好,今天机器之心有幸和两位数据科学领域的专家一起探讨近几年特别「神秘」和「热门」的职业-数据科学家。要了解数据科学家首先要了解一样数据科学。数据科学(DataScience)起初叫「」datalogy」,最初在 1966 年由 Peter Naur 提出,用来代替「计算机科学」。在两位看来,数据科学和计算机科学有什么关系?数据科学和统计学又有怎样的异同?你们是怎样看待这些概念的?这种传统意义上的数据科学在当今社会,其内涵及外延有没有什么改变?


Jason: 我认为在概念上数据科学是一个交叉的学科,包括 1. Math, statistic and machine learning 2. Computer science and programming 3. Business logic. 简单的说,数据科学就是计算机科学和统计在商业的应用,其中我认为计算机科学、统计和机器学习是数据科学的三个支柱。在具体工作中,就是先命题,在找数据,然后试验算法,反复校验,最终把模型放到产品里面。相比传统意义上的数据科学,现在的数据科学可以说是和大数据密不可分的。


44AC1D96-85BB-45FD-AE91-B2513DA7AE62.jpeg


Synced:确实,随着数据指数式增长与爆发,传统的数据处理手段与编程手段已经无法处理「大」数据,所以需要结合现今计算机科学的方方面面来帮助处理。这也就是「数据科学」应运而生的原因。


Chris: 我是计算机科学出身, 最早是 C++程序员,后来发现对于数据处理兴趣更大,就慢慢转到了 BI,Data Warehouse 的方向,现在工作重心主要转向了数据科学。我个人的感受是,数据科学和其它科学的最大区别在于数据科学的最大驱动力是应用。由应用带动了很多突破。所以对于数据科学家的要求,除了研究能力,同时还需要能够和业务领域还有工程紧密结合。一个好的数据科学家除了具备理论知识外,对于业务领域的熟悉和工程的实现也必须有相当程度的了解。


Sycned: 既然说到了应用,那么两位觉得当今社会数据科学在哪个领域的应用价值最大呢?哪个领域的可能性还没有被挖掘出来?


Chris: 我认为从社会意义和潜在经济价值角度来说,医疗行业最有潜力;从现实意义来说,图像识别,语音识别是正在也最有可能实现突破的方向。


Jason: 我觉得其实数据科学在各个行业的应用都很强大,举几个例子:


  • Internet Search:所有的搜索引擎都在利用数据的科学算法,为客户提供最好的结果,在几秒钟内分数我们搜索查询的许多其他搜索引擎,比如谷歌 Google 是其中最大的搜索引擎,还有雅虎 Yahoo,必应 Bing,ASK,AOL,Duckduckgo 等。
  • Pagerank 算法:谷歌的 AD 就是一个很强的例子:为什么有时候你看到分析培训的广告,而你的朋友在同一时间在同一个地方看到的是服装广告?这是数字营销大量使用了数据科学的结果。还有比如数字标牌广告的投放,几乎也都由数据科学的算法来决定了。这种数据科学参与到的数字广告,相比传统广告,得到了更高的点击率。
  • Recommender Systems:最著名的例子就是 Amazon 亚马逊 - 通过 Recommender Systems,亚马逊优化了用户体验,同时可以提供数十亿关联产品。还有很多其他企业,目前也都在使用这个引擎/系统,来了解产品与用户兴趣及个人信息的相关性,并得到建议。还有一些企业,比如 Twitter、Google Play、Netflix、LinkedIn、IMDB 等,在使用这个引擎/系统来改善用户体验。甚至 Social Network 的公司也在做推荐,我认识 Snapchat 做推荐好友的首席,他们在用 Spark 的 GraphX。
  • Image Recognition:具体体现在比如 Facebook 可以根据朋友上传到 Facebook 上的形象和你开始时的建议来标记你的朋友,这种自动标签建议功能使用的是面部识别算法。还有比如,在使用 WhatsApp 的网站时你可以使用手机 Web 浏览器扫描条形码,还有谷歌以图搜图的选项,采用的也是图像识别并提供相关的搜索结果。


CF149B7C-1C6E-4FEF-AAF0-68DCDCD04BCB.jpeg


  • Speech Recognition:语音识别产品的最佳例子是 Google Voice 谷歌语音、Siri、Amazon Echo 等。即使你并不方便键入消息,你的生活也可以通过语音识别功能继续进行,简单的语音消息通过识别会被转换为文本。我从洛杉矶办公室出发以前,就口头问了 Echo 交通情况,它马上就能回答出来。当然,有时候语音识别执行地并不准确。

D508C91E-21FD-4EAD-84CF-753016392D9A.jpeg


  • Gaming:游戏目前正在使用的是机器学习算法,来提升玩家的体验并优化设计。EA Sports、Zynga、Sony 索尼、Nintendo 任天堂、Activision Blizzard 动视暴雪等代表着游戏体验使用数据科学的一个新的水平。最明显是在运动类游戏,计算机通过分析玩家的动作,来实现游戏的创建。我最近拜访了 Riot Games, 他们也在使用数据科学来做用户分析。Chris 老师以前也是用数据科学做客户流失分析的,和 Riot Games 的做法差不多。
  • Fraud Detection & Risk Control:银行类企业通过客户分析、支出和其他必要的变量数据,来分析风险和违约的概率。Credit Card 通过机器学习来调查金融欺诈。
  • Logistic:DHL、Fedex、UPS、Walmart 等物流公司正在利用科学的数据来提高运营效率。数据科学可以计算出最佳的出货路线出货、最适合的交付时间、运输的最佳模式等,帮助公司优化选择以提升成本效率。同时,这些公司也在产出 GPS 数据,为数据的科学探索提供了数量的可能性。


Chris: 我同意 Jason 老师的看法。在传统行业,数据科学也在带来一系列变革。比如我自己所在的通信行业,数据科学正在帮助我们降低用户流失率,提高营销精确度,优化网络和服务流程。通信行业另外一个很重要的应用就是识别欺诈行为,这个事情在最近电信欺诈负面新闻频发的背景下具有特别的社会意义。


或者说一些更大胆的想法,比如说之前有篇论文是讨论通过分析 Twitter 的用户情绪来预测股市,甚至还有专门基于 Twitter 的对冲基金产生。应该说,我们处在一个伟大时代的开端,数据科学正在给所有行业带来巨大冲击。


Synced: 当然,数据科学的世界里我们还有很多疑问,比如数据的获得和隐私。普林斯顿大学的计算机科学家阿尔文德·纳拉亚南 (Arvind Narayanan) 称,只要有合理的商业动机来推动数据挖掘的进程,任何形式的隐私都是「算法上不可能」(algorithmically impossible)的。想请问二位如何看待?如何准确评估数据科学对隐私构成的潜在威胁?数据科学时代,如何保护隐私?


Jason: 这是个大话题。10 月 25 日,南加州数据科学大会(socaldatascience.org)上,齐聚了 24 位演讲嘉宾和 625 位到场嘉宾。其中有一场演讲就专门探讨了数据与隐私。相信大家都认识 Edward Snowden 爱德华・斯诺登。12 年的电影《Citizenfour 第四公民》和 16 年现在正在上映的《Snowden 斯诺登》都在讲述他的故事。然而,他究竟是个英雄、叛徒还是笨蛋,到现在都还没有定论。无论怎样,我们需要感谢他有一点:是 Snowden 成就了大数据时代关于隐私和安全的讨论。这样的讨论不仅从美国一直延伸,成为了一个全球性的话题。


9018CADA-14CA-467B-986F-14F558325EC1.jpeg


在数据安全圈子里,(大)数据生命周期常见有六个阶段:创建,存储,使用,共享,归档和销毁。每个阶段都需要以安全为基础,然而安全隐患在每个阶段都是无法避免的。特别是使用和共享两个阶段,隐私可以说是问题的核心。企业、公司和组织分享内部系统和外部合作伙伴之间的数据,不可否认为我们的生活带来了便利,可一旦信息发生泄漏,后果也是不堪设想,美国发生过多次的信用卡个人信息泄漏就是个例子。工业界当然是在努力保护个人信息的。当建立新的帐户时,通过其网站/应用程序的组织,个人被要求阅读并同意服务及隐私政策的条款。该法律合同通常会定义个人数据在组织内外部将被如何管理和使用,预期是让企业对我们的数据「负责任」。但随着社交网络和「智能」设备的出现,共享数据有时成为了一种公共消遣,比如「自拍」暴露于人前成为一种常态。


FA8349A5-9B13-4B47-ADB5-21637D356CC3.jpeg


Chris: 数据和隐私是个很有意思也是很大的话题。我最近刚参加了一个 Kaggle 的数据科学比赛,主办方是中国最大的第三方移动数据提供商 TalkingData。在这个比赛中我们被挑战去根据用户手机的基本信息:品牌、型号、安装的应用等等,去预测用户的性别和年龄。这也算是从某种程度上验证了阿尔文德的断言吧。我个人的看法,在大数据的时代,我们需要对个人隐私的定义以及如何保护隐私进行新的探索和思考。举个例子,一个人得了癌症,这样的病情是他自己的隐私对吧?但如果在就诊期间,他估计就得指望医生能够尽量准确预测他的病情了。那么问题来了,这种预测算不算对他隐私的侵害?你可以说这是在他的同意之下做的预测所以不算。那么,对于一个地区疫情的预测,从而采取对策,这算不算对隐私的侵害?再进一步,为了能够准确预测病情,我们事先得收集大量的数据。如果没有这些数据的话,所谓的预测和数据科学都是一纸空话。这种对于个人数据的收集,和这些数据为人类整体带来的福祉相比,我们应该如何权衡?作为个人,我们又该如何在隐私保护和享受数据科学成果之间如何取舍?从业者又该如何去保障数据提供者和使用者的权利和义务的平等?


7855459D-6A75-4E04-9B62-252724A6BD82.jpeg


Synced : 结合观众的提问,我相信也是很多读者关心的问题,如果想转行做一名数据科学家,应该具备哪些基本的知识储备?


Jason :学习任何一门技能都包括两个阶段,学习知识和练习。学习阶段,现在网上有很多 Online 的课程,教授数据科学和数据分析。同学们都可以看看 :



EAA30692-696B-4B2A-8683-756F626F7090.jpeg



练习阶段,我会推荐大家参与数据竞赛。比如 Kaggle 是一个数据科学的竞赛平台,很多公司把数据放上来,同学们可以拿 Kaggle 作为联系和获得经验的地方。我 2014 年帮助 UCLA 和 UCSD 的两个同学做 kaggle,最后都找到了数据科学工作。



Chris : Jason 推荐的第一个估计是很多从其它行业转到数据科学的人的启蒙课吧,包括我自己。


Synced:今天特别开心能够请到 Jason 和 Chris 两位来和大家一起讨论关于数据科学的话题,从中我们了解了数据科学的概念、现状和应用,还交流了数据和隐私这样一个大命题。机器之心 Synced Talk 系列每个月都会推出不同的话题,贴合前沿趋势,邀请嘉宾和大家互动、交流。希望大家都能有所收获,感谢大家的参与!


————————————————————————


如果读者想了解更多关于数据科学及数据科学家的问题,请在文章下方留言。另外,Synced Talk x 燎原的线上活动向所有读者征集主题。快告诉我们你想了解的科技话题和你期待出现的嘉宾吧!




©本文由机器之心编译,转载请联系本公众号获得授权

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
机器学习/深度学习 人工智能 数据可视化
【数据科学】反思十年数据科学和可视化工具的未来
【数据科学】反思十年数据科学和可视化工具的未来
|
机器学习/深度学习 云计算
独家 | 是什么让数据科学家从优秀变得伟大?
本文从目前数据科学行业发展角度出发,总结了顶级数据科学家必备的几项技能。
1081 0
|
机器学习/深度学习 算法 数据挖掘
对数据科学家来说最重要的算法和统计模型
本文提供了工业中常用的关键算法和统计技术的概要,以及与这些技术相关的短缺资源。
18975 0
想成为数据科学家?先做到这6点吧!
想成为数据科学家?先做到这6点吧!
1476 0
|
数据挖掘
如何打造数据科学团队,你想知道的都在这里
本文的两位作者分别是 Instacart 负责数据科学业务的副总裁 Jeremy Stanley,以及技术顾问、LinkedIn 前数据业务负责人 Daniel Tunkelang。
1554 0
|
机器学习/深度学习 SQL 数据库
数据分析师不是数据科学家
作者认为数据分析师是指能够使用Excel和SQL等工具分析数据,生成报告、图表和建议,但却提供不出代码的人员。作者这篇文章不是抨击分析师的,而是为了解决多数人对于数据分析与数据科学之间的误解。
3130 0
|
机器学习/深度学习 算法 数据挖掘