用大数据为那些绝世天才们重新洗牌

简介:

用大数据为那些绝世天才们重新洗牌

——读《文明的解析》

在人类文明的历史星空,每个时代都有一些闪亮的名字。通过解析“天才”们的作为来解析文明进程,不算是新鲜的做法。不过,到底哪些人是真正的天才?他们在何种程度上推动了所处的时代,或给后世带来深远的影响?人们对“天才”的认识其实一直都很模糊。

美国历史学家、思想家查尔斯·默里独辟蹊径,找到了一种判断杰出人物成就高低的科学方法。他的著作《文明的解析》聚焦科学和艺术领域,借助统计学搭建了一个丰富的思考框架,当他给历史上公认的“天才”们重新洗牌时,也在我们的认知领域掀起了一场思维革命。

研究谁,研究什么

统计学很古老,一般认为其学理研究始于亚里斯多德时代,不过现代意义上的统计学通常指“统计分析科学”,其理论基础概率论始于15世纪,源于研究赌博的几率。在概率论进一步发展的基础上,数学家们在19世纪初逐渐建立了观察误差理论、正态分布理论和最小平方法则。于是,现代统计方法有了比较坚实的理论基础。这种处理统计数据的新思想、新方法,把概率论的直觉思想转变成指导人的行动的极其有用的工具。它出奇地准确、有效,但前提是样本选择,它的实证研究对象事先预定必须是科学的。这也是默里在《文明的解析》中首先要解决的问题。

仿佛时钟飞速倒转,默里以四百年为一个单位,追溯一万年的人类历史。倒回到第8个单位,即公元前1200年,这是一个时间临界点,道路早已不存,事件模糊,可供资鉴的材料难以足信。所以,默里规定了本书只讲述有把握的公元前800年以后的事。然后,默里确立了三个参照点:安东尼王朝时代的罗马,公元138至180年;宋朝时的杭州,公元960至1279年;塞缪尔·约翰逊时期的伦敦,1737至1784年。目的是让读者感受一下,生活在三个极为不同的人类成就环境中会是什么样,所挑选的地点和时期则是为该书稍后出现的主题铺垫,或者说让读者明了整个理论体系的背景,避免以今非古的错误。

《文明的解析》其余章节里的图表和统计数据代表了有血有肉的人的杰出成就。默里分别为文学、视觉艺术(限于雕刻和绘画)、音乐、天文、生物、化学、地球科学、物理、数学、医学、技术和哲学这12门类建立了数据库。他在筛选对象时以50%为界,尽量在抽样调查的广泛性与稳定性这两个相互矛盾的目标中间求得平衡,凡被50%的合格参考书提到过的人即“重量级人物”,一共4002人,他们成为本书的分析对象。不过,默里所参照的其他著述主要是经典名作,那么,这是否意味着“意识先行”的名人倾向呢?会不会导致数据的不公正?

洛特卡曲线是怎么回事

默里用“洛特卡曲线”告诉我们:如果编写一份人类履历表,仅有数千人超群绝伦;而讲述人类成就故事时不可不提的人物,仅有数百人;他们中间的寥寥几人又显著超拔他人。历史如此漫长,但巨星却寥若晨星。

人的才华的分布情况表现为钟状曲线,两极分别是才华横溢的人和庸碌无为的人,越接近两极,人数越少。由此,《文明的解析》的考察对象就都处于钟状曲线右侧的某个点上。计算指数分数的方法决定了知名人物在曲线上的位置。本书指数分数的根据,是科学家、艺术家在书里所占的篇幅,包括他们的相关介绍文字总量和其成果在书里的插图数量。默里试着变更了几次条件,比如把“入选的艺术家至少要有一项作品被原始资料选用”变成“选用某位艺术家不同的作品”,或者扩大参考书的范围,或者换一批参考资料。实验结果是:无论怎么做,都不可能找到一种衡量方法,既可以反映不同艺术家所受重视的程度,又可以避免高度倾斜的分布结果。

这就是美国人口学家洛特卡在20世纪20年代中期的发现,后来又经过科学史学家普赖斯、心理学家马丁代尔等人的补充研究,无论是艺术还是科学,任何已知的衡量人类成就的综合办法始终呈现为严重倾斜的洛特卡曲线。这也回答了笔者在前面提出的异议。或许每个人对于“卓越”和“成就”的标准有所不同,但在识别卓越时必然需要一定的判断力,因此各种标准得出的结果其实很小,默里所选择的参照物只不过是朝着更精准的方向迈出的一步。

为什么衡量成就和名人的结果会这样分布呢?而且,洛特卡曲线虽然是由钟状曲线的右侧图形引出的,但钟状曲线右侧的尾巴并不像洛特卡曲线那样倾斜。那么,是不是还有其他原因在作怪?

衡量成就,而不是名气

《马太福音书》说:“因为凡有的,还要加给他,叫他有余;没有的,连他所有的也要夺过来。”这其实是一种“累积优势”的观点,也近似于我们通常所说的“机遇”。一个机遇比较好的人,获得了一定名气,容易获得更多资源,也容易取得更大的成就。

艺术和科学领域内的洛特卡曲线到底反映了名气,还是反映了才华?思考这一问题时,我们需要围绕相关性、规律探索及客观性开展,使统计数据中某些含糊不清的内容变得明晰起来。通过默里呈现的一系列一览表,我们发现,名列三甲的“天才”们的指数得分远远地把其他重要人物抛在了身后。而且这其中还有很多出人意料的排名,比如,赫歇尔在伽利略、开普勒之后排在了天文学的第三名,拉马克在达尔文、亚里士多德之后排在了生物学的第三名。其他一览表都有类似的情况。这说明,在公众眼里名气稍欠的这些人,他们的重要性超过了我们的想象,比如拉马克,虽然他的进化论是错误的,但后世的进化论研究都绕不开拉马克,他在促使其他人思考进化论方面起到了重大作用。

这提醒我们必须重新思考“天才”的定义。默里说:“在艺术领域,一个人能否成名取决于一件作品所含的奇绝才华。在科学领域,一个人能否成名取决于一项科学发现本身的重要性。”艺术更能体现个人的才华,比如凡·高,虽然生前默默无闻,但他的才华终究没有被掩盖。而科学发现也许是天才的结果,也许不是。哥白尼的“日心说”是他唯一的成就,他也因此项成就而“封神”。赫歇尔对天文学的贡献极其广泛,论成果,远远超过哥白尼,但他终究只能算是在哥白尼的地基上添砖加瓦,你说,他们的才华谁更高呢?

科学上的创新突破往往不期而至。最典型的例子莫过于弗莱明发现青霉素。但这样的灵光一闪并不是瞬间突然出现的。对天才的膜拜,往往导致人们忽视刻苦钻研的重要性。在那之前的很长时间里,他们也常常在思考这个问题,已经做好了足够的思想准备,所以终于在那一瞬间通关成功。更何况,科学发现往往是集体沉淀,站在“巨人肩膀”上的成果。说他们是天才并没有错,但更正确的说法是,他们取得了天才才能取得的成就。天才并不是指某种类型的人,而是指其取得的伟大成就。

默里并不是纯技术的分析流,他的笔触延宕开来,将天才们的成就放置于时代的背景中,从更大的范围去思考“成就”的意义:“现在也是给予平等和卓越应有的承认的时候了。”比如,从所有的一览表中可以归纳,绝大部分人是欧洲男子,那么,这是不是有欧洲中心论和歧视妇女之嫌?从实证角度看,欧洲中心是事实而不是偏见,东方国家虽然在艺术、科学上也有很多成就,但在缔造现代世界的程度上的确比不上欧洲。默里从进化论解释,男女认知结构以及社会文化习俗的影响等多角度,论述了影响妇女成就的各种因素,女性要追上男性的成就任重而道远,付出的代价也更多。

从大数据中获得更准确的认知

《文明的解析》是一部解析人类文明的创见性作品,同时也是数学魅力的一次精彩展示。人类的文明与进步,从某种意义上讲是通过收集、处理和总结数据而达成的。《文明的解析》之所以能成为出色的著作,恰恰也是得益于这些数据,再加上作者的洞见和思考。

统计学除了要求数据量必须足够多,还要求采样的数据具有代表性,这些在以前难度很大,随着互联网的发展,特别是云计算的兴起和逐渐普及,计量分析学所代表的实证科学研究越来越重要。数据不仅帮助研究者得到更准确的认知,而且将伴随我们的一生,它应该成为我们日常决策的依据。





====================================分割线================================


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
数据采集 大数据 区块链
大数据征信进入洗牌期,区块链或成新一代征信系统底层架构
区块链技术助推新一代征信系统体系建设。
1941 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
39 1

热门文章

最新文章