第一周:什么是数据科学?
课程大纲
Rachel Schutt教授以梳理课程大纲开始,下面是她主要的摘要:
1、 课程需要的基础知识有:线性代数,基础统计学,以及一些编程课程。
2、 课程目标:学习数据科学家都做些什么,并学会做其中的一些事儿。
3、 Rachel主讲几个礼拜的课,然后会有客席讲座。
4、 客座教授的简历跨度非常大,他们的背景也是如此。但他们都是数据科学家。
5、 我们将有丰富的阅读材料:做一名数据科学家的一种能力就是认识到许多还未记录下来的东西。
6、 差不多每两周一次家庭作业,共6-10次。
7、 毕业设计将会是一次内部Kaggle比赛。这是一次团队作业。
8、 此外还会有一次课堂期末考试。
9、 我们将会使用R和python语言,主要是R。可以下载RStudio,主要是辅助R。
10、 如果你只对hadoop分布式计算和运算大数据有兴趣,请你选择Bill Howe的Coursera课程。我们会涉及到大数据,但是只在课程的最后部分。
数据科学的现状
那么,什么是数据科学?数据科学是新的领域吗?是真实的吗?到底是什么?
大家一直在讨论这个话题,但是MichaelDriscoll的答案非常好:数据科学,因为它的实践,是一门红牛饮料驱动的黑客行为和浓缩咖啡激发灵感的统计学的融合。
但是数据科学不仅仅是一次黑客行为,因为当黑客们写成一行Bash语言(Linux脚本程序)和Pig程序(MapReduce使用的高级编程语言)时,很少再会有黑客在乎非欧几里得的距离度量。
数据科学也不仅仅是统计学,因为当统计学家从理论上完成最佳模式的推理,很少人会将A delimited文件再转化到R语言,即时他们的工作需要这个。
数据科学是数据的土木工程。它的用处在于将工具与材料的实务知识,与“什么是可能的”理论理解相结合。
Discroll也参考了Drew Conway2010年的数据科学的维恩图解VennDiagram
让我们也来看下2009年Nathan Yau在《崛起的数据科学家》(Rise of theData Scientist, 2009)中提到的 “数据极客的性感技巧”:
1、统计学 – 你习惯性想到的传统分析
2、对数据进行不必要的改动- 解析,抹去和格式化数据
3、视觉化 - 图表,工具等
别急,数据科学是一口袋骗局吗?或只是其他领域,如统计和机器学习的合乎逻辑的延伸?
让我们再来看看ASA主席Nancy Geller在2011年Amstat新闻期刊上发表的文章《别丢弃统计S字眼儿》(Don’t Shunthe ‘S’ Word, 2011),其中她为统计学在数据科学中的作用进行了辩护。
可以肯定的是,在数据科学领域,没有人能提供给你一份干净的数据库,也没有人告诉你用什么数据处理方法。此外,数据科学的发展领域是在工业界,而非学术领域。
2011年,DJ Patil描述了他是如何在2008年与Jeff Hammerbacher共同创造了“数据科学家”这个词。然而早在2001年,William Cleveland就写了一篇有关数据科学的学术论文。
这么说来,数据科学的诞生早于数据科学家?这是个文字游戏吗?这要究竟怎样理解呢?
由此引发了下列问题,该如何通过数据科学家的职责来定义数据科学?由谁来下定义?这中间有许多含糊其辞,是否该由媒体来定义?还是由从业人员说了算,抑或是自诩的数据科学家们?究竟是否已有一个权威了呢?让我们还是给这些问题留一定余地吧。
哥伦比亚大学决定借由布隆伯格(彭博商业媒体主席,前纽约市长)的支援,建立数据科学与工程学院ColumbiaInstitute for Data Sciences and Engineering。这次举措还引发了一个问题,为什么信息发布现场还有一位化学家呢?上一次我查看纽约数据科学家招聘职位时有465个职位空缺,这是相当大的数量。所以即使数据科学还不能被称之为真正的领域,至少它提供真实的工作岗位。
同时还须注意到,对数据科学家工作岗位的描述中都有对计算机科学、统计学、传播学、数据可视化和一些其他专业领域精通的要求。没有人是全能专家,这正是组建一支由不同背景和各个领域专业人才的团队的重要性。作为一支团队,就可以精通任何领域了。
下面是一些数据行业生态系统中的重要成员:
l O’Reilly与他的Strata会议
l Datakind
l Meetup Groups
l Union Square Ventures等风险投资正往诸多数据科学创业公司投入资金
l Kaggle定期举办数据科学大学
l 哥伦比亚大学应用数学教授Chris Wiggins,为技术专长本科生与纽约创业企业间建立了系统的暑期实习项目HackNY
注:维基百科直至2012年才创建了“数据科学”词条。更说明了这是一个新的术语,也或许是一门新的学科。
如何开展一项数据类的项目?
假设你要为某个网站做一个网络产品,需要跟踪分析用户的行为。你可以顺着以下这个思路来考虑这个问题:
1. 用户与产品互动
2. 产品的前台和后台
3. 用户产生的操作:点击等
4. 这些操作都会被记录下来
5. 时间会被记录;用户使用产品的所有关键操作都会被记录
6. 记录的原始数据经过改写、整合、映射化简等处理
7. 最后处理得到大量的优质数据
8. 这些数据是通过用户键入、播放(诸如Pandora这样的线上播放系统)或者任何可能的方式被收集到的
9. 收集到的数据将被分析,建模等等
10. 最终的分析结果能给我们一个全新的视角来理解用户行为
11. 新见解又会被反馈到产品上去
12. 要系统地改变用户与产品的关系,我们决定先测试用户与产品的互动。这一点已经将传统的数据分析员和数据科学家的工作区分开来了,数据分析员只负责分析客户消费的可能性,重新定位用户群,但不会改变产品本身。
13. 数据科学家还需向总经理或者产品总设计师汇报他们观察到的客户情况,比如客户体验和客户行为习惯,这就需要他们具有沟通汇报,数据可视化和“讲故事”的能力。数据科学家的本职工作就是围绕产品“讲故事”。
14. 有时你必须从网页上抓取辅助信息,因为相关信息可能会被遗漏记载,或者还有可能因为不是用户本人产生的没有被记载。
描述你自己
Rachel分发了评分参考卡让他们对自己的技能等级(从相对级别而非绝对级别)从以下几个方面进行描述:
软件工程,
数学,
数据统计,
机器学习,
专业知识,
语言交流与口头汇报能力,
以及数据可视化。
然后我们将这些评分参考卡收集起来看看大家眼中的自己是怎么样的。非常有趣的是,虽然他们当中大多数人都是来自社会科学专业的,但是结果却有相当大的差异。
同时,由于没有一个人擅长所有事情,所以当数据科学小组内不同的人拥有不同的技能(前面所描述的)的时候,这个小组往往能运转十分顺利。这让我开始考虑把它定义为一个“数据科学小组”是不是会更贴切,而非一个数据科学家。
思考问题:我们能用数据技术来定义数据科学吗?
我们分了若干小组来讨论这个问题,下面是其中一些观点:
l 可以:比如谷歌搜索的数据技术以及其执行的文本挖掘模型
l 但是等等,这个取决于就语言而言,你是一个使用者而非处方者。我们可以让大众来定义数据科学吗(这儿“大众”指的是谷歌搜索引擎找到的一切东西)?或者说我们可以找一个比较有权威的参考吗?比如牛津英语词典。
l 事实上牛津英语词典或许目前根本还没有相关条目,然后我们也没有时间去等待它收录此条目。我们不妨接受这样一种现象,有一种既不被权威参考所认同也不被“大众”所接受的范围。
l 我们不妨再来看看那些操作领域的数据科学家?看看他们怎样描述他们所做的事(或许对初学者来说是模糊的),然后看看那些被称之为统计学家,物理学家或者经济学家的人怎样来描述他们所做的事。接着我们可以尝试着用聚类算法或者一些其它模型来验证它,比如当我输入“我所做的事”的时候,它是否能很好地预测我所在的领域。
仅仅作为一个比较,检验一下HarlanHarris最近在数据科学领域所做的事:他通过调查,运用聚类法定义了数据科学的子领域,具体结果参见下面的图片:
这是一个令人兴奋的第一周,希望我们能取得更大的进步!
原文发布时间为:2014-06-11
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号