一年前,我退出了加拿大最好的计算机科学项目之一,利用在线资源开始创建属于自己的数据科学硕士课程。我意识到我可以通过edX, Coursera,以及Udacity学习我所需要的一切,而且学的更快、效率更高,学费更低。
数据可视化:Alanah Ryding
现在我差不多快要完成了。我上了很多数据科学相关的课程,旁听过更多课程的部分内容。我知道对于一个准备成为数据分析师或数据科学家的初学者来说有哪些选择,以及什么样的技能是必需的。几个月前,我开始创建一个用评价驱动的指南,用来为数据科学中的每个主题推荐最佳课程。
如果你不确定数据科学课程入门涵盖什么,这篇文章将向你介绍。
为了制作这份指南,我花了10多个小时设法识别了截止2017年1月所有的数据科学的线上入门课程,从它们的大纲和评价中提取关键信息,并为它们编制评级。除了开源的Class Central 社区和它数以千计的课程评分及评论的数据库,我没有借助其他任何帮助。
Class Central的主页
自2011年以来,Class Central的创始人Dhawal Shah无疑比世界上的任何其他人都关注在线课程。他亲自帮我列出了这份资源清单。
如何挑选入围课程
每门课程必须满足三个标准:
它必须教授数据科学过程(data science process),稍后会做出解释。
它必须随需应变或每几个月就推陈出新。
它必须是互动的在线课程,而不是书本或只能阅读的教材。虽然学习有很多种方式,但是这份指南主要专注于课程。
我们确信这个指南已经涵盖了满足以上三个标准的所有重要课程。Udemy上有上百种课程,因此我们只选择那些评论最多和评分最高的课程。然而,我们仍然有可能百密一疏。所以如果我们漏掉了哪个不错的课程,请在评论区里告知。
我们如何评估课程
我们汇总从Class Central和其他评论网站得来的平均评级和评论数量,来计算每门课程的加权平均评分。同时我们阅读文本评论,并将其作为数据评分的补充。
我们基于以下两点对教学大纲进行主观判断:
数据科学过程的覆盖面。课程是否将某个主题简略带过或干脆跳过不说?是否对某个主题又倾注了太多的细节?在下个章节可以看到这些过程的具体内容。
通用数据科学工具的使用。课程是不是使用Python和/或R语言等主流编程语言?虽然这些并不是必须的,但多数时候有益,因此我更偏爱这类课程。
Python和R语言是数据科学领域最主流的两种编程语言
数据科学过程(data science process)是什么?
数据科学是什么?数据科学家做些什么?这是数据科学入门课程需要回答的基本问题。下面这张来自哈佛大学教授Joe Blitzstein和Hanspeter Pfister的示意图,概述了典型的数据科学过程,可以帮助我们回答这些问题。
可视化来自于Opera Solutions
我们对于数据科学入门课程的目标是熟悉数据科学过程,并不想对过程的某个方面涉入过深,这也是为什么标题使用了“入门”字眼的原因。
对于每一方面,理想的课程都会在过程的框架内解释关键概念,介绍常用工具,并提供一些案例(动手操作会更好)。
我们只搜集入门课程,因此这份指南并不包括像约翰霍普金斯大学在Coursera的Data Science Specialization或是Udacity上的Data Analyst Nanodegree这样的专项课程或项目。这些课程的汇编与这份指南的目的相悖:为数据科学教育寻求每个方面最好的单独课程。本系列文章的最后三份指南,将详细介绍数据科学过程中的每个方面。
基本的编程、统计和概率背景是必须的
下面列出来的一些课程需要基础的编程、统计和概率背景。这个要求很容易理解,因为新的内容为进阶阶段,而且这些主题经常要用到这些背景知识。
这些背景知识可以在这份我们推荐的数据科学就业指南的前两章(编程,统计)中获得。
我们认为最好的数据科学入门课程是——
数据科学从A到Z:现实生活中的数据科学(含练习)(Kirill Eremenko/Udemy)
在我们评估的20多门数据科学课程中,Kirill Eremenko在Udemy上的“数据科学从A到Z”不管从广度还是深度上来说都是当之无愧的赢家。它拥有3071条评论,4.5星的加权平均评分,是评分最高、评论最多的入围课程。
它概述了完整的数据科学过程,并提供了真实案例。视频内容为21小时,长度刚好。评论者们喜欢导师的讲解方式和内容组织方式。价格经常会跟着Udemy的优惠而变化,因此你也有可能以10美金的低价购买到该课程。
虽然它并不满足我们“使用通用数据科学工具”的评估原则,但是非Python/R工具的应用(gretl, Tableau, Excel)也都算恰如其分。Eremenko在解释他为什么用gretl(一种统计软件包)时说了以下这段话,这个解释也适用于他所使用的其他工具(敲黑板划重点!):
使用gretl,我们可以像在R和Python中一样建模,但却不必编程。这很重要。你们中的一些人可能已经很熟悉R语言,但还有一些人可能不。而我的目标是向你们展示如何建立稳定的模型,并且给你一个可以应用于任何工具的框架。gretl能够帮助我们避免于纠结编程。
一个著名的评论者是这样写的:
Kirill是我在线上发现的最好的老师。他通过生活中的案例向你解释一些常见问题,这样你就能对课程作业有更深的理解。他还提供了很多关于作为一个数据科学家意味着什么的洞见,从如何处理不充分的数据到向高级管理层汇报工作等。我强烈建议初级和中级数据分析师们学习这门课程。
“数据科学从A到Z”预览视频
专注于Python的精品入门课程
数据分析入门(Udacity)
Udacity的数据分析入门(Intro to Data Analysis)是门新上线的课程,是受欢迎的Data Analyst Nanodegree系列中的一部分。虽然在建模方面有所欠缺,它仍然清晰地涵盖了使用Python的数据科学过程。预估课程时间是36个小时(跨度六周,每周六小时),尽管以我个人经验看会更短。它仅有1个5星好评(译者安:现在有两个),并且免费。
该课程的视频制作精良,导师(CarolineBuckey)思维清晰、风度翩翩,有大量的编程小测验可以强化人们在视频中学到的概念和知识。课程完成后,学生们会为他们新学和/或提高的NumPy和 Pandas(这两个都是流行的Python库)技能感到自信。最后的作业(在这个单独的免费课程中没有,但是会在Nanodegree中得到评分和评估)是一个很好的额外补充。
Udacity导师Caroline Buckey
概述了数据分析过程(也叫数据科学过程)
一门很不错却没有评价数据的课程
数据科学基础(大数据大学Big Data University)
数据科学基础是由IBM的大数据大学(Big Data University)提供的有四门课的系列课程。这四门课分别是数据科学101、数据科学方法论、使用开源工具开始学习数据科学,以及R语言 101。
它涵盖了整个数据科学过程,并介绍了Python、R以及其他开源工具。课程的实用价值惊人。估计需要13-18小时学习时间,具体取决于你是否参加最后一门“R 101”。当然,从这份指南的目的来说,这门课也不是必须。不幸的是,我们用于这次分析的主要评论网站上竟然一个评价都没有,因此我们无法基于评论做出评价,不过这个课程是免费的。
来自大数据大学(Big Data University)
数据科学101课程(数据科学基础系列课程)
第一模块的视频
第一名是加权评分4.5星评论超过3068条的课程。下面我们按评分降序排列来看看其他值得一学的课程。如果你对R语言感兴趣,你还能在下面找到重点教授R语言的课程。
Python数据科学与机器学习训练营(Jose Portilla/Udemy):着重于介绍工具使用(Python),课程覆盖了数据科学的全过程,较少关注流程本身,更关注对Python的细节介绍。虽然并不完全符合本文的讨论范围,但依然是很赞的课程。和下面介绍的Jose的R课程一样,该课程同时介绍了Python/R和数据科学。该课程包含21.5小时的学习内容,1644条评价,综合评分4.7。课程价格取决于Udemy的打折力度,经常变化。
R语言数据科学与机器学习训练营 (Jose Portilla/Udemy):着重于工具使用(R),课程覆盖了数据科学的全过程。较少关注流程本身,更关注对R的细节介绍。虽然并不完全符合本文的讨论范围,但依然是很赞的课程。和上面介绍的Python课程一样,该课程同时介绍了Python/R和数据科学。该课程包含18小时的学习内容,847条评价,综合评分4.6。课程价格取决于Udemy的打折力度,经常变化。
Jose Portilla在Udemy上
设置了两个分别使用Python
和R的数据科学与机器学习的训练营
Python数据科学和机器学习(实战)(Frank Kane/Udemy):仅涵盖部分知识点。专注于统计学和机器学习,长短适宜(约9个小时),语言为Pyhton。该课程拥有3104条评论,综合评分4.5。课程价格取决于Udemy的打折力度,经常变化。
数据科学入门(Data Hawk Tech/Udemy):课程覆盖了数据科学的全过程,但深度有限,相当简短(仅3个小时),包含简单的R和Python介绍。该课程有62条评论,综合评分4.4。课程价格取决于Udemy的打折力度,经常变化。
数据科学应用入门(雪城大学/Open Education by Blackboard):课程覆盖了数据科学的全过程,但不够均衡。该课程重点关注基础统计学和R语言,特别注重应用不够关注数据科学的过程,与本指南的宗旨不符。在线课程体验不够连贯。该课程有6条评论,综合得分4.33,免费。
数据科学入门(Nina Zumel & John Mount/Udemy):仅涵盖部分知识点,但在数据清洗和建模方面讲解深度到位。课程长度适中(6小时),使用的是R语言。该课程有101条评论,综合得分4.3分。课程价格取决于Udemy的打折力度,经常变化。
使用Python的数据科学应用(V2 Maestros/Udemy):课程覆盖了数据科学的全过程,并且课程设置的每个方面都有相当的深度。长短适宜(8.5小时),使用的语言为Python。该课程有92条评论,综合评分4.3分。课程价格取决于Udemy的打折力度,经常变化。
V2 Maestros的数据科学应用课程
有两个版本,一个使用Python,一个使用R。
想成为数据科学家?(V2 Maestros/Udemy):课程覆盖了数据科学的全过程,但是课程深度有限。课程时间很短(3小时),涉及的工具有限。该课程获得790条评论,综合评分4.3分。课程价格取决于Udemy的打折力度,经常变化。
洞见数据:数据分析入门(奥克兰大学/FutureLearn):暂不清楚课程覆盖广度。该课程宣称专注于数据探索、发现和可视化。不按需提供课程内容,课程内容为24小时(每周3个小时,总共8周)。累该课程获得2条评论,综合评分4分。课程免费,可付费获得认证证书。
数据科学入门培训(Microsoft/edX):仅覆盖部分知识点(缺少数据建模部分)。使用的是Excel,鉴于这是微软认证的课程,也可以理解。课程包含12-24小时的内容(每周2-4小时,总共6周)。该课程获得40条评论,综合评分3.95。课程免费,可付25美元获得认证证书。
数据科学基础 (微软/edX):课程覆盖了数据科学的全过程,并且每个部分都有相当的深度。课程涵盖了R、Python以及Azure ML(微软的机器学习平台)。有很多1星评价给到该课程使用的糟糕的工具(Azure ML))以及导师差劲儿的授课能力。该课程获得67条评论,综合评分3.81分。课程免费,但想要认证证书需要支付49美元。
上面两个课程来自于微软的
在edX上的“数据科学专业认证”
使用R语言的应用数据科学 (V2 Maestros/Udemy):与之前V2 Maestros的Python课程类似。课程覆盖了数据科学的全过程,并且有相当的课程深度。课程长度适宜(11小时),使用的语言为R语言。该课程有212条评论,综合得分3.8。课程价格取决于Udemy的打折力度,经常变化。
数据科学入门(Udacity):仅覆盖部分知识点,虽然覆盖的课程具有相当的深度。该课程缺少数据探索部分,尽管Udacity在探索性数据分析(EDA)方面提供一个高质量的完整课程。该课程要求48小时的学习时长(每周6小时,总计8周),但以我的经验来说实际会比48小时短。有评论认为课程缺乏高级内容。感觉讲述比较零散,使用的语言为Python。该课程有18个评论,综合得分3.61。课程免费。
使用Python的数据科学入门(密歇根大学/Coursera):仅涉及部分知识点。缺少建模和可视化部分,尽管在课程“专注Python的应用数据科学”的#2和#3部分覆盖了这两部分内容,但是学习所有三门课程对于本文来说过于深入了。使用的语言是Python。课程时长为4周。该课程有15条评论,综合得分3.6分。包含免费和付费选项。
密歇根大学在Coursera上教授
“专注Python的应用数据科学”
数据驱动决策 (普华永道/Coursera):仅涉及与商业有关的部分知识(缺少建模部分)。介绍了多种工具,包括R、Python、Excel、SAS以及Tableau。课程时长4周,获得2条评论,综合得分3.5分。包含免费和付费选项。
数据科学速成(约翰霍普金斯大学/Coursera):对数据科学全过程的一个非常简明的概括。但对本指南来说太过于简明了。课程时长2个小时。该课程得到19个评论,综合评分3.4分。包含免费和付费选项。
数据科学家的工具箱(约翰霍普金斯大学/Coursera):对数据科学全过程的一个非常简明的概括。可看作是针对Johns Hopkins大学数据科学专业的基础课程。宣称的课程时长为4-16小时(每周1-4小时,总共4周),但有评论提到该课程2小时即可完成。该课程获得182个评论,综合评分3.22分。包含免费和付费选项。
数据管理与可视化(卫斯理大学/Coursera):仅涉及部分知识(不包含建模)。课程时长4周,高价值产出。使用Python和SAS。该课程有6条评论,综合得分2.67分。包含免费和付费选项。
下列课程截至2017年1月没有任何评论。
CS109 数据科学(哈佛大学):课程覆盖了数据科学的全过程并有不错的课程深度(对于本指南来说可能有点过于深奥了)。该课程是完整的12周本科生课程。课程方向很难,因为起并不是针对在线教学而设计的。这是哈佛大学课程的实际录像。以下数据科学流程信息图就来源于该课程。使用的是Python,没有评论数据,课程免费。
图片来源于Harvard CS109的首页
商业数据分析入门 (科罗拉多大学博尔德分校/Coursera):仅涉及部分知识点(缺少建模和可视化部分),重点关注商业。在他们的课程中,数据科学过程被称为“信息-行动价值链”(“Information-Action Value chain”)。课程时长为4周。课程讲述了不少工具,但仅深度覆盖了SQL。没有评论数据,包含免费和付费选项。
数据科学入门(Lynda):课程覆盖了数据科学的全过程,但是深度有限。时长很短(3小时)。课程介绍了R和Python。没有评论数据。具体课程费用由Lynda决定。
原文发布时间为:2014-04-23
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号