《数据科学家修炼之道》一2.1 数据科学领域的历史

简介:

本节书摘来异步社区《数据科学家修炼之道》一书中的第2章,第2.1节,作者: 【美】Zacharias Voulgaris(弗格里斯)译者: 吴文磊 , 田原 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.1 数据科学领域的历史

“数据科学”这一术语的流行要早于“大数据”的出现(就像“数据”一词要早于“计算机(computer)”400年出现)。1962年,当John W. Tukey[1]写了《数据分析的未来》(The Future of Data Analysis)[2],他预见了数据分析的新方法的崛起相比于方法论来说更像是一门科学。1974年,Peter Naur在瑞典和美国出版了《计算机方法的简明调查》(Concise Survey of Computer Methods)[3]。尽管这仅仅是对当时的数据分析方法的综述,但这本书却第一次定义了数据科学是“一门研究数据处理的科学,在创立之初,数据与它所表示的事物之间的关系属于其他学科领域的范畴”。所以,在那时,任何有熟练计算机知识同时有理解数据语义的人都在一定程度上算是一名数据科学家。因为没有精致的工具,没有神奇的范式,也没有新科学做它的支撑,所以这个词过了这么久才流行起来也一点儿都不奇怪了。

由于在之后的10年里,计算机技术与统计学开始交汇,Tukey的观点开始显现出来,尽管这种变化显得十分细小。直到20世纪80年代,它才开始通过一项在数据科学界十分出名的方法得到发展,而这个方法就是数据挖掘。随着时间脚步的行进,数据的科学化处理达到了新的高度,而数据科学则在1996年叩响了学术界的大门。1996年,在日本的神户,分类学社团国际联合会(International Federation of Classification Societies)举行了一个大会,大会的名称叫“数据科学、分类学以及相关方法”(Data Science, Classification and Related Methods)。它使得数据科学在学术圈内声名鹊起,同时也使得它与其他的数据分析术语(例如分类学)区别开来。显然,数据科学的涵盖范围要大得多,这使得数据科学渐渐成为了一支独立学科。

在之后的1997年,《数据挖掘与知识发现杂志》创刊了,定义了数据挖掘是“从大数据集中抽取信息”的概念,这是第一次数据科学方法在科学界得到了与工业界内一样的流行与认可。这个方法我们会在第11章“数据科学的处理流程”中再次遇到。

随着数据库变得更大,数据科学的角色在20世纪90年代后期的出镜率也变得更高。这种观点也随着 Jacob Zahavi在他1999年的文章“为知识中的金矿而挖掘数据”[4]中得到放大。他写道“传统统计方法在小数据集中可以运行得很好。然而,今天的数据集可能会涉及上百万行以及上百列的数据。扩展性是数据挖掘中的一个巨大问题,另一个技术挑战在于开发出更适于分析数据,发现非线性关系以及元素间相互作用的模型,以及专用的数据挖掘工具来帮助网站进行决策”。这非常清晰地勾画了数据分析的新框架,而数据科学则是在将来帮助解决这个需求的领域。

进入2000年后,关于数据科学的出版物开始呈现增长态势,尽管主要在学术范围内。关于数据科学的报刊杂志以及书籍变得越来越多,同时吸引了大量研究者的关注。在2005年9月,如我们在上一章节内提到的,“数据科学家”一词在一篇政府报告中被第一次定义了(尽管只是一般的表述)。之后,在2007年,数据科学重点实验室在中国上海成立了。

2009年对数据科学来说是重要的一年。朱扬勇与熊赟,两位是之前提到的重点实验室的研究员,在他们的“数据学导论”[5]中提到,数据科学是一门新的科学,明显地不同于自然科学与社会科学。此外,在2009年1月,Hal Varian(谷歌首席经济学家)提出,在接下来的10年里,统计学家[6](当别人并不非常熟悉数据学时,也会被用来指称数据科学家)将会是一个迷人的职业。最终,在2009年6月,Nathan Yau的文章《数据科学家的崛起》[7]被刊载于《Flowing Data》,使得数据科学家这一角色对于非学术世界的人们变得熟悉起来。

在现在这个10年(2010~2020年)中,关于数据科学的出版物变得丰富,尽管除了你正在读的这本书之外,还没有权威的信息途径论述如何有效地成为数据科学家。“数据科学”一词得到了具体地定义,其精华则被总结在Drew Conway 在2010年9月的韦恩图中(见图2.1)


2_1

图2.1所示为Conway关于数据科学的韦恩图,图例展示了数据科学的主要组成部分以及它与机器学习和传统研究的差别。通过“Danger Zone”(危险区域),他大致是指“黑客/解密者”对计算机系统的安全危害(图片源: DrewConway)。

他的话提供了对成为数据科学家更深刻的理解,“一个人需要学习许多知识去变成他所渴望成为的全能数据科学家。但不幸的是,仅仅通过读书和辅导练习并不能解开这些扭结。因此为了简化讨论,同时也把我的思考放到已经拥挤不堪的创意市场里去,我将数据科学的韦恩图呈上……黑客技术、数学和统计学知识,还有专业知识。[8]

最终,在2012年9月,Hal Varian的这10年里迷人的职业的表述竟演变成一篇文章,并刊登于哈佛商业评论(“数据科学家:21世纪里最性感的职业” [9]),这篇文章更是引爆了大众对数据科学家这一角色重要性的认知。

值得注意的是,与这些出版物和大会同时发生的,还有许多在线的关于数据科学的社会活动。第一个官方的数据科学小组是于 2009年6月在LinkedIn上成立的(以数据科学家小组而知名[10]),而且他们还有自己的独立网站(现网址datascientists.net以及原网址datascientists.com)。其他的数据科学小组也已在2008年上线,然而自从2010年以来,他们的数量就以燎原之势增加,同样增加的还有数据科学家的在线招聘的帖子,这会在第13章展开叙述。同样值得注意的还有在过去的几年里,还有很多关于数据科学的非学术会议。这些会议以研讨会的形式进行,针对数据领域的专家、项目经理和执行层开展。

相关文章
|
Java Maven
maven依赖原则以及jar包冲突
该文介绍了Maven依赖原则:最短路径优先,申明顺序优先和覆写优先。当有冲突时,Maven选择路径最短的版本,按POM中声明顺序加载,并且子POM的依赖优先于父POM。解决冲突最佳方式是通过`mvn dependency:tree`检查依赖树并调整POM文件中的坐标顺序。
378 2
|
人工智能 自然语言处理
产品更新|AI新功能:智能门户、智能问答已上线,赶紧体验吧!
「宜搭 AI」 继9月开放智能应用、智能公式后,现开放新一期功能,继续感受 AI 魔力!
906 2
产品更新|AI新功能:智能门户、智能问答已上线,赶紧体验吧!
|
11月前
|
监控 测试技术 C#
C# 一分钟浅谈:GraphQL 错误处理与调试
本文从C#开发者的角度,探讨了GraphQL中常见的错误处理与调试方法,包括查询解析、数据解析、权限验证和性能问题,并提供了代码案例。通过严格模式定义、详细错误日志、单元测试和性能监控等手段,帮助开发者提升应用的可靠性和用户体验。
236 67
|
11月前
|
存储 XML 监控
什么是 JBoss Enterprise BRMS?
什么是 JBoss Enterprise BRMS?
221 2
|
开发框架 搜索推荐 数据中心
KDD2024最佳学生论文解读,中科大、华为诺亚:序列推荐新范式DR4SR
【9月更文挑战第25天】近年来,随着人工智能技术的发展,序列推荐系统(SR)因能捕捉用户动态偏好而在日常生活中愈发重要。然而,数据质量问题常被忽视。为解决此问题,中国科学技术大学与华为诺亚方舟实验室联合提出DR4SR,一种通过数据集再生提升序列推荐系统性能的新范式。DR4SR采用模型无关的数据再生方法,增强数据集的多样性和泛化能力,且可通过DR4SR+进行个性化调整以适应不同模型需求。实验表明,DR4SR和DR4SR+在多个数据集上显著提升了推荐系统性能。尽管面临计算资源和过拟合风险等挑战,该范式仍展现出巨大潜力。
353 7
|
安全 Linux 数据安全/隐私保护
详解如何登录Docker Registry
【8月更文挑战第24天】
1388 0
|
机器学习/深度学习 自然语言处理 算法
AIGC技术到底是什么?为什么这么火热?
AIGC技术到底是什么?为什么这么火热?
574 0
|
JavaScript
Vue 编写(preventReClick)防暴点 +防抖(debounce)和节流(throttle)函数
Vue 编写(preventReClick)防暴点 +防抖(debounce)和节流(throttle)函数
693 0
|
缓存 Python
什么是Python中的描述符(Descriptor)?如何实现一个描述符?
什么是Python中的描述符(Descriptor)?如何实现一个描述符?
193 2
|
人工智能 物联网 机器人
还在用Lora模型?快来试试 Stable Diffusion SDXL 1.0 模型,实现绘画自由
基于阿里云PAI-DSW部署Stable Diffusion SDXL 1.0 模型,生成高质量图片
681 0