13张图看6年来数据科学概念之争

简介:


◆ ◆ 


数据科学是一个定义相当模糊的词语。我听到的一些定义有——


“这是一项需要比大多数统计学家更多的编程技巧,和比程序员更多的统计数据技能的工作。”


“是应用统计,但在旧金山却不是。”


“有人突然决定在自己的名片上印上‘数据科学家’这几字,然后靠着这个涨了工资。”


就我个人而言,我最近决定称呼自己为数据矿工来避免争议。(无论如何,数据矿工并不时髦。)


数据科学是一个寻找定义的行业,人们进行着很多不同的尝试来定义它也不足为奇。


作为一个充满着数据书呆子而且对可视化情有独钟的领域,很多人在尝试定义时使用维恩图也是不足为奇。


1. 2010年·Drew Conway版



他的个人博客在2013年因为发表了数据科学维恩图而火了起来。对于Conway,图的中心是数据科学。关于下面的那个圈“实质性专业(Substantive Expertise)”的含义(我接下来会进一步解释)有过一些争议:我只能说,如果是Conway的意思不是我所说的领域知识(例如物理学)而是其他的东西,那么他选择的这个名字确实不怎么样。


因此,假如领域知识是他的意思,至少这个想法的一部分是:比如一个物理学家,本来具有物理和数学/统计的专业知识,但缺乏黑客知识(我见过不少物理学家也有黑客知识,故而这个现象现在并不那么普遍了);机器学习专家有时会在缺乏对要进行分析的事情所在领域知识情况下,对他们要分析的事情应用算法(这和我第一次在一个全新的产业里起步建立模型时的情况一模一样,我不得不作了很多知识补充);还有的人可以编程,并且知道自己领域内的知识,但却没办法知道什么时候是偶然,什么时候是一个统计上显著的结果,这样的人是很危险的;他们给出的解决办法可能会是非常错误的,导致他们公司大量的经济损失。


2. 2012年 Brendan Tierne版


这个图……确实看起来有点乱。顺便说一句,KDD代表知识发现和数据挖掘(Knowledge Discovery and Data Mining)。尽管如此,数据挖掘也有自己的圈。我欣赏他在这里的所作所为,这里为了说明数据科学是个多学科的领域,数据科学的价值在于其所需技能的广度。显然,这些技能中有一个是神经计算(Neurocomputing) ,这似乎也有点太.....具体了。


注:

KDD:Knowledge Discovery and Data Mining,知识发现和数据挖掘。

AI:Artificial Intelligence,人工智能。


3. 2013·Ulrich Matter版


紧跟着Conway的脚步,Ulrich Matter也在2013年同一个月内在博客上发表了自己的版本。


他把Conway的版本沿对角线做了个翻转,把“实质性专业”指定为社会科学(他的领域),把“ 黑客能力(Hacking)” 改成“计算机科学” (你可以理解为什么有人会不想被定性为一个黑客,虽然我本人没意见),由于一些原因,他把“ 数学与统计” 改成了“ 定量方法(Quantitative Methods)” 。更重要的是,他把在Conway版本中本应该是“机器学习”的地方改成了“数据科学”——这是一个有趣的差别。有些数据科学家专注于一个领域,也有些人是通才(这些人通常在一个领域开始,但一发不可收拾,像我这样的:我一开始在化学行业而现在我在保险行业)的数据科学家。此外,他显然对“危险区”这个词感到不舒服,将其更改为...一个问号。但很显然,最重要的是图的中心:数据驱动计算[社会](Data-driven Computational [Social] Science)。



我们可以说它有点...罗嗦?他还在“传统研究”的前面加上了“实验性”这个词。


4.Joel Grus版


爱德华·斯诺登消息传出后, Joel Grus提供了这个混乱的版本。现在我们进入这种四个圈的维恩图领域,第四个圈就是很讨厌的。

注:

NSA:National Security Agency,国家安全局。


5.2013年·Harlan Harris版


2013年9月,Harlan Harris用了这个图来处理数据产品,而不是数据科学。


每一个切片不再和Conway的版本相对应,因为我们已经完成从科学到产品的变化,但是类别仍值得关注(他们也跟着真正的维恩的方法,不是独立的切片本身)。“领域知识”仍然存在,“计算机科学/黑客”仍然作为“ 软件工程”存在。此外,关键的是Harris在统计圈上增加了预测分析和可视。统计圈和软件工程圈的交集是实际应用的工具。



6.2014年·Steven Geringer版


2014年1月,Steven Geringer提供了一个调整,不再像Conway那样把数据科学放在中间三路交叉口,而是称整个事情为“数据科学”, 三个圈的交界处为独角兽(意思是像一个神兽一样,传言存在,但从来没有人在野外亲眼看到。)


这是...有点怪异,如果按维恩图解来说。我想我知道他想要干吗。当我第一次听到有人被称为数据科学家,我经常听到还击,“难道不是所有的科学家,顾名思义,都是数据科学家?”诚然,任何科学都不能没有数据处理,不过,数据科学,而相当模糊的,不能是一个总称。


另外,我很抱歉,但你可以看到他的鼠标箭头还在截屏图上呢。



7.2014年·Michael Malak版


在2014年2月,Michael Malak增加了第四个圈,声称Conway在说“实质性专业”时,意思不是领域知识。


根据Malak的说法,当涉及到“实质性专业识:“你继续用这个词。我不认为它是你认为的意思。” Malak把它分成领域专业知识,和......呃,和某一个领域的知识比如社会科学。也许是我想太多,但我不明白他们的区别。我也不知道他想用“整体的传统研究”表达什么。科学数据,再次回到了独角兽的位置,有三个危险区域(其中一个还是双重危)。看起来每个人都讨厌“黑客”这个词。



8.Vincent Granville


我的下一个例子来自Vincent Granville,他于2014年4月转发了Gartner的作品,但我不知道其原作的具体日期。


这是数据科学解决方案,而不是数据科学本身的维恩图; 因此,数据科学是其中一个圈,与其他的能力(通常不属于同一个人,但希望在同一个团队里)是IT技能和业务技能。有点困扰我的是,文字标签指着每个圈里非常具体的位置,但实际位置却是任意的。



9.Shelly Palmer


Shelly Palmer在赫芬顿邮报上客串博客中发表了他自己书里的这个图:



10.2015年·Stephan Kolassa版本


在2015年11月,StackExchange数据科学用户Stephan Kolassa想出了我个人的最爱的图,其在Conway的版本上加了“交流”,并把“实质性专业”改成了“业务”。


关于他的这个成果,在这个测试版发布论坛上得到了21个“赞”(我就是其中之一)。他的分类都还不错。我想我可以被归入“好的顾问”这一类。或可能是“平庸顾问”。或者是个“用力过猛”的顾问?


是的,这才是一个四圈维恩图该有的样子,不是之前Malak那种不能包含交叉点的所有组合的四个同心圆。



11.2016年·Matthew Mayo与Gregory Piatetsky-Shapiro版


2016年,Matthew Mayo的博客发表了由Gregory Piatetsky-Shapiro制作的一张图。


好吧,虽然它声称是数据科学的维恩图:第一,它不是一个维恩图;第二,数据科学是其中的一个圈。大数据被承认令人欣喜,不过…这个字体是啥情况?



12.2016年·Gartner版


最后(我敢肯定,我没有收集到所有的。如果你知道有哪张维恩图我错过了,请让我知道),后来在2016年,Gartner在他的博客上重做了他那样有点繁忙的数据解决方案图,并使其更漂亮和更加基于数据科学。


我们兜了一圈,又回到Conway,除了“危险区”又一次所取代,这一次被改了“数据工程师”。我喜欢这次文字都指向圈的边缘,比他们以前的乱标注好多了。




13.未来的数据科学维恩图:


维基百科上关于科学的页面有以下这个不完全是维恩图的图:



说真的,在我看来,这是看待数据科学的方式。也许不是这些具体的技能,但它确实是不同学科的协同作用。不幸的是,在一门学科的技能有时可以掩盖自己也许在另外一门学科知识的严重缺陷,从而破坏数据科学的名声。(在我虚度年华的青春岁月,我也许也是促成了这一现象的一分子。)


当然,那么你则需要一个非常复杂的维恩图。


它们确实存在——


这里有一个七维级别的:



原文发布时间为:2016-10-09


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
探索数据科学:从理论到实践的技术感悟
【5月更文挑战第31天】本文通过作者在数据科学领域的学习与实践经历,探讨了理论与实际应用之间的桥梁。文章首先回顾了数据科学的基础知识和核心概念,然后通过案例分析展示了如何将抽象的理论知识转化为解决实际问题的工具。最后,作者分享了个人对数据科学未来发展的看法和建议,旨在为同行提供参考和启发。
|
5月前
|
存储 编译器 C++
打破C++的神秘面纱:一步步带你走进面向未来的编程世界!
【8月更文挑战第22天】C++是一门功能强大但学习曲线陡峭的语言,提供高性能与底层控制。本文通过实例介绍C++基础语法,包括程序结构、数据类型、控制结构和函数。从简单的“Hello, C++!”程序开始,逐步探索变量声明、数据类型、循环与条件判断,以及函数定义与调用。这些核心概念为理解和编写C++程序打下坚实基础,引导你进入C++编程的世界。
47 0
|
7月前
|
存储 数据可视化 测试技术
了解面向对象方法发展历程
【6月更文挑战第26天】本文介绍了几个面向对象发展中出现的典型方法。**Coad/Yourdon方法** **Booch方法** **OMT** **OOSE**。这四种方法都贡献于现代面向对象软件开发的。
176 0
了解面向对象方法发展历程
|
7月前
|
设计模式 程序员
代码之美:编程艺术与实践的融合
本文旨在探索编程的艺术性,揭示如何通过技术实践提升软件质量与开发效率。文章将分享个人在编程过程中的感悟,包括对代码美学的理解、设计模式的应用、重构的重要性以及持续学习的态度。读者可以从中获取如何将编程技艺与艺术感结合,以创造出既实用又美观的代码。
|
存储 缓存 架构师
揭秘大型网站架构进化之路
揭秘大型网站架构进化之路
287 0
揭秘大型网站架构进化之路
《影响力》于我之三
为什么广告法要禁止使用“最”字?
120 0
《认知颠覆》读书笔记之三
很多事情坚持不下去,你知道真正原因是什么吗?
151 0
|
安全 区块链
科普 | 区块链概念大热的背后,真正的价值在这里
区块链概念大热的背后,真正的价值在这里
1431 0

热门文章

最新文章