重磅:如何不花钱就成为数据科学家?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

从白宫雇佣DJ Patil作为第一位首席数据科学家到联合国运用预测分析来预报可能发生在学校中的爆炸事件,无论何时何地,大数据、数据科学和预测分析都是最热门的话题。



每个月都有很多家创业公司如雨后春笋般出现,让我们即使耗尽想象力也难以完全理解当下的技术会如何改善我们的生活以及我们所做的一切。数据科学的市场需求巨大,增长态势也如同被打了鸡血一样极为迅猛。


根据领英(Linkedin)的数据,“统计分析”和“数据挖掘”是今年求职者能被雇佣的头两个技能。高德纳咨询公司表示,2015年全球提供给数据科学家及其相关职位的工作机会有440万,单在美国就有190万。一个数据科学相关的工作还可以再创造三个非信息领域的工作,因此总共会产生大约1300万个职位。可问题是你要做些什么才能确保职位,梦想成真?你如何才能成为全球这440万工作机会的合格候选人?


全球至少有50个开设数据科学学位课程的大学,学费从5万到27万美金不等,以及需要14年的时间。如果你正想要去读大学,这可能是一个不错的选择。比起其它类似或不那么类似的学科,数据科学有它自己独特的优势。但是,对于发展中国家的人来说,学费过于高昂;同时,对于职场人士,投入几年时间的代价很大。


另外,也有一些不错的暑期课程、研究协会和训练营,它们承诺可以在短时间内让你成为数据科学家。这当中有一些虽然是免费的,但是很难有机会加入,而有些要求博士等高学历,还有些两个月左右的课程却要价1.5万到2.5万美金。对于即将毕业的博士生来说,这些都是能获得一些实战经验的好机会,然而我们目前还不清楚这些短期受训者是否能媲美资深的行业分析师。我个人非常喜欢其中的一些项目,比如Data IncubatorInsight FellowshipMetis BootcampData Sciencefor Social Goods 和著名的 Zipfian Academy 项目。


付费资源

在介绍如何不花钱成为数据科学家之前,我提一下我很喜欢几个的付费资源。第一个是Booz Allen公司的探索数据科学项目(Explore Data Science program),费用是1250美元,但是物有所值。第二个是Tim Chartier 录制的《大数据:数据分析如何改变我们的世界》(Big Data: How Data Analytics is transforming the worldDVD,只要80美元,值得一试。


下面两个课程来自麻省理工:一个是《应对大数据的挑战》(Tackling the Big Data Challenges),学费是500美元,这个课程为你提供了坚实的大数据理论基础;另一个是只要100美元学费的《分析学前沿》(The Analytics Edge),课程精辟地讲解了分析法是如何被用于解决日常运营问题。如果你每天可以抽出几小时的时间,那么试试Udacity提供的针对数据分析师的Nanodegree课程,每月支付200美元,6个月左右能完成,他们和facebookZipfian学院和MongoDB合作提供这个课程。ThinkFul每月收费500美元的项目是有一个导师实时指导你成为数据科学家。


那么,那些想成为数据科学家,但是负担不起或者进不了竞争激烈和收费高昂的项目的人应该怎么办呢?还有那些来自于发展中国家,想在数据科学这一重要领域提高他们的竞争力,或者即使只是尝试应用这些先进技术改善他们的周边环境、社区和国家的人又该怎么办呢?


免费资源

以下就是我不花一分钱成为数据科学家的“独门秘籍”:


1. 理解数据:单纯的、没有任何背景的数据是没有意义的,也容易让人误解。数据需要有具体的背景才能说明问题。数据就像是一种颜色,需要有一个具体的外观才能证明它的存在。以红色为例,它需要一些具体的外观才能让我们看到,比如红色的汽车、红色的围巾、红色的领带、红色的鞋子或任何红色的东西。同理,数据也需要和它的环境、内容、模型、方法以及它产生、发生、使用、修改、执行和终止的整个生命周期结合在一起。


我还没发现一个数据科学家和我谈数据的时候不提及像HadoopNoSQLTableau的技术或其它老牌供应商与流行语。你需要与你的数据建立亲密的关系,你需要彻底地了解它。问他人“你的”数据为何出现异常就像是问自己的妻子怀了谁的孩子一样荒谬。我们在与联合国的合作以及确保学校远离爆炸的相关软件中具备一个独有的优势是:对底层数据的控制力。当全世界在使用统计图表讨论这些数据时,我们是那些回家体验数据的人,让它融入我们的日常生活,这些数据的价值、细节和增值,是我们不能在其它地方找到的。对于其它的项目和客户,我们也是同样对待的。


2. 理解数据科学家:不幸的是,“数据科学家”恰好是数据科学这个领域中最容易使人困惑和被误用的词之一。有人将其联想为知晓世间所有事情的神秘预言家;有人认为他们仅仅是统计学家;少数人认为他们只是一些熟悉Hadoop  NoSQL的人;还有人认为他们就是一些会做简单测试或是在管理会议中使用很多晦涩难懂的数学和统计学术语的人。甚至于,某些人眼中的可视化控制面板,在另一些人看来只是永无止境的ETLExtract-Transform-Load,数据仓库技术 )过程。在我看来,数据科学家是一类比数据创造者少一些对科学的理解,比数据生成者少一点对数据的理解的人,而他们恰恰是知道如何把这两部分工作融会贯通的人。一个好的数据科学家应该知道外部有哪些资源可用,应该和哪些人联系,应该雇佣什么样的人,以及采用什么样的技术可以完成工作;可以将商业目标和数据集市(data mart)连接起来,可以把每一个点,从商业利益到人类行为、从数据生成到付出的款项简单地联系在一起。


3. 观看Ted网站上的这13个视频

http://www.ted.com/playlists/56/making_sense_of_too_much_data


4. 观看Hans Rosling的视频,理解可视化的力量

http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen


5. 收听PartiallyDerivative的关于数据科学的每周博客,查看博客中提供的一些有用资源

http://www.partiallyderivative.com/

http://www.partiallyderivative.com/resources/


6. 华盛顿大学的两个课程:

《数据科学入门》(Introto Data Science)和《数据分析计算》(Computing for data analysis)会是个好开头


7. 利用GitHub上的资源,要尽量多读


8. 浏览Measure for America网站(http://www.measureofamerica.org/),了解数据如何起作用


9. 阅读免费图书Field Guide to Data Scienceshttp://www.boozallen.com/media/file/The-Field-Guide-to-Data-Science.pdf


10. 努力完成“如何成为数据科学家”的信息图中的每一个步骤



11. 阅读博客“The DataCamp”(http://blog.datacamp.com/),提高R编程技术


12. 阅读博客“simplystats”(http://simplystatistics.org/),提高统计分析能力


13. 阅读Zipfian学院网站上一篇非常实用的文章“A Practical Intro to Data Science”(http://www.zipfianacademy.com/blog/post/46864003608/a-practical-intro-to-data-science


14. 试着完成“The Open SourceData Science Masters”系列课程

http://datasciencemasters.org/


15. 学习Coursera网站创始人之一AndrewNg的机器学习课程

https://www.coursera.org/learn/machine-learning


16. 尽一切努力完成Coursera上的数据科学专项课程(DataScience Specialization),完成所有9门课以及核心项目

https://www.coursera.org/specializations/jhudatascience


17. 如果你缺乏计算机科学的背景或是想侧重于数据科学中的编程部分,请完成Coursera 上数据挖掘专项课程(Data Mining Specialization

https://www.coursera.org/specializations/datamining


18. (可选项)根据你想从事的领域,可以参考下面这些专业相关的数据科学课程:医疗保健分析——入门和专项课程(healthcare analytics – intro and specialization教育(education性能优化(performanceoptimization)和一般学术研究(general academic research

https://www.coursera.org/course/bigdataanalytics

https://www.coursera.org/specializations/medicaltech

https://www.open2study.com/courses/big-data-for-better-performance

http://www.liebertpub.com/big


19. 如果要了解数据科学应用的部署方面,Coursera上的“云计算”专项课程以及免费的AWSAmazon Web Services)培训则是“必修课”

https://www.coursera.org/specializations/cloudcomputing

http://aws.amazon.com/training/intro_series/


20. 学习“海量数据挖掘”(MiningMassive Datasets)和“过程挖掘”(Process Mining)这两门顶尖课程

https://www.coursera.org/course/mmds

https://www.coursera.org/course/procmin


21. 27本最好的免费数据挖掘类书籍

http://www.dataonfocus.com/21-free-data-mining-books/


22. 每天阅读Data ScienceCentral,类似这样的文章可以让你在面试中节约很多时间。


23. 尽可能多在Kaggle上参与比赛项目


24. 如果还想更上一层楼,以下这些Coursera上的统计课程会让你脱颖而出:推论统计学(InferentialStatistics 描述统计学(Descriptive Statistics,数据分析和统计学(Data Analysis and Statistics),Passion driven statsMakingSense of Data


25. 关注预测分析领域大牛的Twitter@mgualtieri,@analyticbridge, @doug_laney, @Hypatia_LeslieA, @hyounpark, @KDnuggets,@anilbatra


26. 关注大数据和数据科学领域大牛的TwitterAlistairCroll, Alex Popescu, @rethinkdb, Amy Heineike, Anthony Goldbloom, Ben Lorica,@oreillymedia., Bill Hewitt, Carla Gentry CSPO, David Smith, David Feinleib,Derrick Harris, DJ Patil, Doug Laney - Edd Dumbill, Eric Kavanagh, Fern Halper,Gil Press, Gregory Piatetsky, Hilary Mason, Jake Porway, James Gingerich, JamesKobielus, Jeff Hammerbacher, Jeff Kelly, Jim Harris, Justin Lovell, Kevin Weil,Krish Krishnan, Manish Bhatt, Merv Adrian, Michael Driscoll, Monica Rogati,Neil Raden, Paul Philp, Peter Skomoroch, Philip (Flip) Kromer, Philip Russom,Paul Zikopoulos, Russell Jurney, Sid Probstein, Stewart Townsend, Todd Lipcon,Troy Sadkowsky, Vincent Granville, William McKnight, Yves Mulkers


这张表里的全部内容需要3-12个月的时间完成,但是完全免费。并且我保证你掌握这些技能后,工作机会就会滚滚而来。即使你只完成了一半,通知我一声,我也可以告诉你接下来该怎么办。现在就看你的了,无论你在哪里,能负担多少,如果你想拥有超过平均水平至少四倍的收入,这就是你接下来该做的事,至少是接下来这十年,这十年中每人每年将会产生20TB的数据,是过去十年的20倍。


原文发布时间为:2015-10-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
人工智能 自然语言处理 架构师
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
|
开发框架 运维 Kubernetes
【参赛送好礼】2023 云原生编程挑战赛·赛道 3 赛题解析助您快速 get 参赛技能
【参赛送好礼】2023 云原生编程挑战赛·赛道 3 赛题解析助您快速 get 参赛技能
|
人工智能 运维 安全
职等你来 | 2023春招,牵手阿里云基础设施,期待同行
快~加入阿里云基础设施,一起打开有意思的未来!
职等你来 | 2023春招,牵手阿里云基础设施,期待同行
|
弹性计算 运维 云计算
飞天计划书
通过老师的介绍,了解到了“飞天加速计划-高校学生在家实践”活动,利用阿里云给我们提供的学习资源,解决在阿里云服务器所遇到的困难,将其与专业知识相结合,提升自身的综合能力,加深了对专业课程的了解,感谢阿里云给我们使用的机会。
|
供应链 Apache 项目管理
开源社区纷纷在报名的暑期 2021,是场怎样的活动?内附开源社区参与全指南
开源社区纷纷在报名的暑期 2021,是场怎样的活动?内附开源社区参与全指南
开源社区纷纷在报名的暑期 2021,是场怎样的活动?内附开源社区参与全指南
|
开发者
阿里云开发者能力评测团队排位赛圆满收官!
尊敬的开发者,为期三周的阿里云开发者能力评测团队排位赛圆满收官了!相信,通过此次活动,一定有不少开发者在技能知识储备、技术交友以及团队组织方面的能力又有所收获。
阿里云开发者能力评测团队排位赛圆满收官!
|
SQL 安全 NoSQL
阿里云新品发布会周刊第67期 丨 阿里研究员谷朴:警惕软件复杂度困局!
新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会!
867 0
阿里云新品发布会周刊第67期 丨  阿里研究员谷朴:警惕软件复杂度困局!
|
机器学习/深度学习 分布式计算 DataWorks
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
即日起,阿里云大数据训练营九营齐开!理论与实践,概念与案例,大数据从0到1上手学习,行业大神真人带练!
3247 0
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
|
机器学习/深度学习 分布式计算 DataWorks
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了!
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了!
2512 0
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了!
|
数据安全/隐私保护 网络架构
在阿里网络团队实习两年是一种怎样的体验?
大家好!我是田冰川,南京大学2016级直博生,导师为田臣老师,研究方向为计算机网络。2018年6月,我以研究型实习生的身份入职阿里巴巴基础设施事业部网络研究团队,实习期间主要从事网络验证相关的研究工作,即通过形式化方法与灰度测试,来降低网络变更中的潜在风险。
2451 0
在阿里网络团队实习两年是一种怎样的体验?
下一篇
无影云桌面