如何成为一名数据科学家?-阿里云开发者社区

开发者社区> 开发者小助手-bz8> 正文

如何成为一名数据科学家?

简介: 9 月 28 日机器之心与大型创业社交平台燎原进行合作,举办了关于数据科学的线上讨论会。数据科学究竟是怎样起源兴起的?要怎样理解数据科学和计算机科学、统计学的关系?数据科学的应用价值到底体现在哪里?成为数据科学家需要具备哪些基本的知识储备?现在兴盛的各类数据大赛是怎么一回事?大数据时代「隐私」已死?
+关注继续查看

从人类发展至今,有历史即有数据。然而随着互联网的高速发展与当下的信息不对称现状,数据正在变得越来越繁杂,也越来越具有价值。


早在 2011 年,McKinsey 公司就预测到 2018 年,仅在美国本土就可能面临缺乏 19 万具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业做出有效决策的数据管理人员和分析师也有 150 万人的缺口,美国专业招聘公司罗致恒富(Robert Halt)公布的《2015 薪资指南(2015 salary guide)》也已把大数据人才列为薪资涨幅最大的六大行业之一。数据科学家(data scientist)正在作为企业数据分析的核心岗位,受万众瞩目。


9 月 28 日机器之心与大型创业社交平台燎原进行合作,举办了关于数据科学的线上讨论会。数据科学究竟是怎样起源兴起的?要怎样理解数据科学和计算机科学、统计学的关系?数据科学的应用价值到底体现在哪里?成为数据科学家需要具备哪些基本的知识储备?现在兴盛的各类数据大赛是怎么一回事?大数据时代「隐私」已死?


活动中,数据应用学院(Data Application Lab)的创始人耿杰森和资深数据科学家陈允喻结合了自身的专业领域和工作经验,和我们分享了他们眼中的数据科学的世界。


10377DF9-839E-4917-A48D-E82603ED9D83.jpeg


以下内容为这次活动的文字版,请大家继续关注机器之心 SYNCED talk 系列线上活动。


116473A3-B619-4888-B1B4-BFB1D1DC8E12.jpeg


Synced:大家好,今天机器之心有幸和两位数据科学领域的专家一起探讨近几年特别「神秘」和「热门」的职业-数据科学家。要了解数据科学家首先要了解一样数据科学。数据科学(DataScience)起初叫「」datalogy」,最初在 1966 年由 Peter Naur 提出,用来代替「计算机科学」。在两位看来,数据科学和计算机科学有什么关系?数据科学和统计学又有怎样的异同?你们是怎样看待这些概念的?这种传统意义上的数据科学在当今社会,其内涵及外延有没有什么改变?


Jason: 我认为在概念上数据科学是一个交叉的学科,包括 1. Math, statistic and machine learning 2. Computer science and programming 3. Business logic. 简单的说,数据科学就是计算机科学和统计在商业的应用,其中我认为计算机科学、统计和机器学习是数据科学的三个支柱。在具体工作中,就是先命题,在找数据,然后试验算法,反复校验,最终把模型放到产品里面。相比传统意义上的数据科学,现在的数据科学可以说是和大数据密不可分的。


44AC1D96-85BB-45FD-AE91-B2513DA7AE62.jpeg


Synced:确实,随着数据指数式增长与爆发,传统的数据处理手段与编程手段已经无法处理「大」数据,所以需要结合现今计算机科学的方方面面来帮助处理。这也就是「数据科学」应运而生的原因。


Chris: 我是计算机科学出身, 最早是 C++程序员,后来发现对于数据处理兴趣更大,就慢慢转到了 BI,Data Warehouse 的方向,现在工作重心主要转向了数据科学。我个人的感受是,数据科学和其它科学的最大区别在于数据科学的最大驱动力是应用。由应用带动了很多突破。所以对于数据科学家的要求,除了研究能力,同时还需要能够和业务领域还有工程紧密结合。一个好的数据科学家除了具备理论知识外,对于业务领域的熟悉和工程的实现也必须有相当程度的了解。


Sycned: 既然说到了应用,那么两位觉得当今社会数据科学在哪个领域的应用价值最大呢?哪个领域的可能性还没有被挖掘出来?


Chris: 我认为从社会意义和潜在经济价值角度来说,医疗行业最有潜力;从现实意义来说,图像识别,语音识别是正在也最有可能实现突破的方向。


Jason: 我觉得其实数据科学在各个行业的应用都很强大,举几个例子:


  • Internet Search:所有的搜索引擎都在利用数据的科学算法,为客户提供最好的结果,在几秒钟内分数我们搜索查询的许多其他搜索引擎,比如谷歌 Google 是其中最大的搜索引擎,还有雅虎 Yahoo,必应 Bing,ASK,AOL,Duckduckgo 等。
  • Pagerank 算法:谷歌的 AD 就是一个很强的例子:为什么有时候你看到分析培训的广告,而你的朋友在同一时间在同一个地方看到的是服装广告?这是数字营销大量使用了数据科学的结果。还有比如数字标牌广告的投放,几乎也都由数据科学的算法来决定了。这种数据科学参与到的数字广告,相比传统广告,得到了更高的点击率。
  • Recommender Systems:最著名的例子就是 Amazon 亚马逊 - 通过 Recommender Systems,亚马逊优化了用户体验,同时可以提供数十亿关联产品。还有很多其他企业,目前也都在使用这个引擎/系统,来了解产品与用户兴趣及个人信息的相关性,并得到建议。还有一些企业,比如 Twitter、Google Play、Netflix、LinkedIn、IMDB 等,在使用这个引擎/系统来改善用户体验。甚至 Social Network 的公司也在做推荐,我认识 Snapchat 做推荐好友的首席,他们在用 Spark 的 GraphX。
  • Image Recognition:具体体现在比如 Facebook 可以根据朋友上传到 Facebook 上的形象和你开始时的建议来标记你的朋友,这种自动标签建议功能使用的是面部识别算法。还有比如,在使用 WhatsApp 的网站时你可以使用手机 Web 浏览器扫描条形码,还有谷歌以图搜图的选项,采用的也是图像识别并提供相关的搜索结果。


CF149B7C-1C6E-4FEF-AAF0-68DCDCD04BCB.jpeg


  • Speech Recognition:语音识别产品的最佳例子是 Google Voice 谷歌语音、Siri、Amazon Echo 等。即使你并不方便键入消息,你的生活也可以通过语音识别功能继续进行,简单的语音消息通过识别会被转换为文本。我从洛杉矶办公室出发以前,就口头问了 Echo 交通情况,它马上就能回答出来。当然,有时候语音识别执行地并不准确。

D508C91E-21FD-4EAD-84CF-753016392D9A.jpeg


  • Gaming:游戏目前正在使用的是机器学习算法,来提升玩家的体验并优化设计。EA Sports、Zynga、Sony 索尼、Nintendo 任天堂、Activision Blizzard 动视暴雪等代表着游戏体验使用数据科学的一个新的水平。最明显是在运动类游戏,计算机通过分析玩家的动作,来实现游戏的创建。我最近拜访了 Riot Games, 他们也在使用数据科学来做用户分析。Chris 老师以前也是用数据科学做客户流失分析的,和 Riot Games 的做法差不多。
  • Fraud Detection & Risk Control:银行类企业通过客户分析、支出和其他必要的变量数据,来分析风险和违约的概率。Credit Card 通过机器学习来调查金融欺诈。
  • Logistic:DHL、Fedex、UPS、Walmart 等物流公司正在利用科学的数据来提高运营效率。数据科学可以计算出最佳的出货路线出货、最适合的交付时间、运输的最佳模式等,帮助公司优化选择以提升成本效率。同时,这些公司也在产出 GPS 数据,为数据的科学探索提供了数量的可能性。


Chris: 我同意 Jason 老师的看法。在传统行业,数据科学也在带来一系列变革。比如我自己所在的通信行业,数据科学正在帮助我们降低用户流失率,提高营销精确度,优化网络和服务流程。通信行业另外一个很重要的应用就是识别欺诈行为,这个事情在最近电信欺诈负面新闻频发的背景下具有特别的社会意义。


或者说一些更大胆的想法,比如说之前有篇论文是讨论通过分析 Twitter 的用户情绪来预测股市,甚至还有专门基于 Twitter 的对冲基金产生。应该说,我们处在一个伟大时代的开端,数据科学正在给所有行业带来巨大冲击。


Synced: 当然,数据科学的世界里我们还有很多疑问,比如数据的获得和隐私。普林斯顿大学的计算机科学家阿尔文德·纳拉亚南 (Arvind Narayanan) 称,只要有合理的商业动机来推动数据挖掘的进程,任何形式的隐私都是「算法上不可能」(algorithmically impossible)的。想请问二位如何看待?如何准确评估数据科学对隐私构成的潜在威胁?数据科学时代,如何保护隐私?


Jason: 这是个大话题。10 月 25 日,南加州数据科学大会(socaldatascience.org)上,齐聚了 24 位演讲嘉宾和 625 位到场嘉宾。其中有一场演讲就专门探讨了数据与隐私。相信大家都认识 Edward Snowden 爱德华・斯诺登。12 年的电影《Citizenfour 第四公民》和 16 年现在正在上映的《Snowden 斯诺登》都在讲述他的故事。然而,他究竟是个英雄、叛徒还是笨蛋,到现在都还没有定论。无论怎样,我们需要感谢他有一点:是 Snowden 成就了大数据时代关于隐私和安全的讨论。这样的讨论不仅从美国一直延伸,成为了一个全球性的话题。


9018CADA-14CA-467B-986F-14F558325EC1.jpeg


在数据安全圈子里,(大)数据生命周期常见有六个阶段:创建,存储,使用,共享,归档和销毁。每个阶段都需要以安全为基础,然而安全隐患在每个阶段都是无法避免的。特别是使用和共享两个阶段,隐私可以说是问题的核心。企业、公司和组织分享内部系统和外部合作伙伴之间的数据,不可否认为我们的生活带来了便利,可一旦信息发生泄漏,后果也是不堪设想,美国发生过多次的信用卡个人信息泄漏就是个例子。工业界当然是在努力保护个人信息的。当建立新的帐户时,通过其网站/应用程序的组织,个人被要求阅读并同意服务及隐私政策的条款。该法律合同通常会定义个人数据在组织内外部将被如何管理和使用,预期是让企业对我们的数据「负责任」。但随着社交网络和「智能」设备的出现,共享数据有时成为了一种公共消遣,比如「自拍」暴露于人前成为一种常态。


FA8349A5-9B13-4B47-ADB5-21637D356CC3.jpeg


Chris: 数据和隐私是个很有意思也是很大的话题。我最近刚参加了一个 Kaggle 的数据科学比赛,主办方是中国最大的第三方移动数据提供商 TalkingData。在这个比赛中我们被挑战去根据用户手机的基本信息:品牌、型号、安装的应用等等,去预测用户的性别和年龄。这也算是从某种程度上验证了阿尔文德的断言吧。我个人的看法,在大数据的时代,我们需要对个人隐私的定义以及如何保护隐私进行新的探索和思考。举个例子,一个人得了癌症,这样的病情是他自己的隐私对吧?但如果在就诊期间,他估计就得指望医生能够尽量准确预测他的病情了。那么问题来了,这种预测算不算对他隐私的侵害?你可以说这是在他的同意之下做的预测所以不算。那么,对于一个地区疫情的预测,从而采取对策,这算不算对隐私的侵害?再进一步,为了能够准确预测病情,我们事先得收集大量的数据。如果没有这些数据的话,所谓的预测和数据科学都是一纸空话。这种对于个人数据的收集,和这些数据为人类整体带来的福祉相比,我们应该如何权衡?作为个人,我们又该如何在隐私保护和享受数据科学成果之间如何取舍?从业者又该如何去保障数据提供者和使用者的权利和义务的平等?


7855459D-6A75-4E04-9B62-252724A6BD82.jpeg


Synced : 结合观众的提问,我相信也是很多读者关心的问题,如果想转行做一名数据科学家,应该具备哪些基本的知识储备?


Jason :学习任何一门技能都包括两个阶段,学习知识和练习。学习阶段,现在网上有很多 Online 的课程,教授数据科学和数据分析。同学们都可以看看 :



EAA30692-696B-4B2A-8683-756F626F7090.jpeg



练习阶段,我会推荐大家参与数据竞赛。比如 Kaggle 是一个数据科学的竞赛平台,很多公司把数据放上来,同学们可以拿 Kaggle 作为联系和获得经验的地方。我 2014 年帮助 UCLA 和 UCSD 的两个同学做 kaggle,最后都找到了数据科学工作。



Chris : Jason 推荐的第一个估计是很多从其它行业转到数据科学的人的启蒙课吧,包括我自己。


Synced:今天特别开心能够请到 Jason 和 Chris 两位来和大家一起讨论关于数据科学的话题,从中我们了解了数据科学的概念、现状和应用,还交流了数据和隐私这样一个大命题。机器之心 Synced Talk 系列每个月都会推出不同的话题,贴合前沿趋势,邀请嘉宾和大家互动、交流。希望大家都能有所收获,感谢大家的参与!


————————————————————————


如果读者想了解更多关于数据科学及数据科学家的问题,请在文章下方留言。另外,Synced Talk x 燎原的线上活动向所有读者征集主题。快告诉我们你想了解的科技话题和你期待出现的嘉宾吧!




©本文由机器之心编译,转载请联系本公众号获得授权

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
25921 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
7300 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
2518 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
9002 0
使用SSH远程登录阿里云ECS服务器
远程连接服务器以及配置环境
2123 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
8126 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4452 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
20974 0
1549
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《Nacos架构&原理》
立即下载
《看见新力量:二》电子书
立即下载
云上自动化运维(CloudOps)白皮书
立即下载