玩笑到现实,大数据涉足文学研究--用数据模型分析莎翁著作

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 自然语言研究一直以来都是计算机研究的一个重要方向。随着大数据时代的到来,人们也越来越关注自然语言这方面的进展。而文学是自然语言这个皇冠上的明珠。人们都拭目以待大数据摘下这颗明珠的那一天。

几十年来,文学作品中的统计分析已经从单纯的破译理论发展到尖端研究

abde22bef8b8d60ca9d6f45be45ed815741e0440

1993年,Tom Stoppard的戏剧《世外桃源》(Arcadia正式上演在这部脑洞大开的戏剧中那些用数据统计进行文学评论的桥段成为圈内人的笑料。剧中位傻乎乎的诗歌教师,Bernard Nightingale嘲笑他的同事用计算机程序来断定一个没有署名的故事出自于劳伦斯(D.H. Lawrence)之手并且还得意的指出“在同样的统计基础上,竟然有百分之九十的可能性,Lawrence还撰写了《淘气小威廉》(“Just William”.作者是里奇马尔Richmal Crompton)这本书以及前一天的《百眼巨人报(英国布莱顿市的一份地方报纸)虽然这只是该剧中的几个笑话,但现在突然变得令人“细思恐极”了 随着《新牛津莎士比亚》系列的出版,人们开始了一场关于伊丽莎白时期剧作家身份的讨论


新牛津莎士比亚全集的最新版登上了去年10月份的头条新闻。因为书中指出莎士比亚的44部戏剧作品有17部是和别人共同完成的(相比之下,1986仅列出了8)。 而其中一个出现的人名,马洛(Christopher Marlowe),更让人们兴奋不已这个名字的出现似乎佐证了之前一些关于作者身份被驳回的阴谋论 然而,更吸引人眼球的是得出这个论断背后的技术。人们已不再是根据编辑观察等传统的方式,而是通过计算分析来做出这样的结论。 那么今天的数据语言学家是如何在不受作者影响力的前提下,弄清楚作者与作品的关系的呢 同时我们更需要思考为什么做到这点很重要


计算机和人类可以通过一些“附加词”来识别是不是莎士比亚的作品,如他会经常在自己的作品中使用 “gentle”, “answer”, “beseech”, “tonight” 显然这种方法来判断是不是莎翁作品已经变得不那么准确了,因为那时候的作家常常会模仿其他人的行文风格 早期的剧作家是非常紧密的一个团体,而与此同时16世纪的观众似乎并不是很在意作品的独创性《帖木儿》(Tamburlaine),马洛的一部非常受欢迎的戏剧,当时被许多人模仿衍生出各种续作。以至于当时著名的剧作家本·琼森(Ben Jonson)对该剧被无休止的模仿而发出了哀叹。 莎士比亚也和其他人一样没能免俗。 《马耳他岛的犹太人》(“The Jew of Malta” ,1589)中, 马洛笔下的巴拉巴斯将他的女儿阿比盖尔隔离在一个阳台上:

“But stay! What star shines yonder in the east?

The lodestar of my life, if Abigail!”

(“看! 哪颗星星在东方发光?就是我生命中北极星,阿比盖尔!“)


如果这段台词听起来很熟悉那是因为十年后莎士比亚笔下的罗密欧有着类似的台词

“But soft! What light through yonder window breaks?

It is the East, and Juliet is the sun!” (“轻声!那边窗子里亮起来的是什么光?这是东方,而朱丽叶就是太阳!“)


在这种相互影响的情况下,电脑如何能够分辨出马洛和莎士比亚本人的作品以及他们作品中相互借鉴的区别?根据《新牛津莎士比亚》的编辑,其中的关键在于“功能词”, 就是 to”或“a”这类能够为句子提供语法支撑的单词。 他们的理论认为作家们都会无意识地以自己独特的方式使用这些词。 例如,莎士比亚经常把“and”与 with”连在一起用 - 克劳狄斯与乔特鲁德婚礼中的“With mirth in funeral and with dirge in marriage” (“葬礼中的挽歌和婚礼中有欢歌”),老哈姆雷特的鬼魂说到“缓慢而庄严得出现在他们面前”( “Appears before them, and with solemn march。Goes slow and stately”) 因此即使作家们试图模仿他人的写作风格,功能词的使用仍然能够揭示他们真实的身份。 通过分析作家如何使用那些功能词,计算机可以初步地识别他们独特的语言指纹。


在莎士比亚作品的研究中,能够获知作品作者,作品内容以及写作时间是非常关键的,通过这些信息能有助于说服那些唯莎士比亚论者,因为在他们眼里莎翁就是一个孤傲的天才。 之前之所以人们会认为莎士比亚少有与人合作,主要原因还是那些与他合作的作家并不是非常出色。尽管计算机模型不是绝对准确的,但是以证据而非作品质量来判定作品的归属还是令人信服的。


其次,正确的作品归属让我们更好的了解戏剧作品本身。 当我们打开一部历史戏剧作品的第一页,就像开始了一部关于这段历史的电影。 由于《亨利六世》第二章的大部分可能是马洛撰写的,这就打破了这个历史剧作的统一性。 马洛更多的表现出对普通百姓角色(比如低调的杰克·凯德)的兴趣,而不是那些无所不能的君主;相反, 莎士比亚更喜欢“国王之死”类似的故事。 知道同一部作品出自他们两人之手,了解到其中的争议和共生,我们可以更好地理解戏剧本身。


据《新牛津莎士比亚》编辑之一加布里埃尔·埃根(Gabriel Egan)所说,归因模型越来越准确,主要的原因就是“计算机研究人员越来越多地将研究精力转向自然语言,而自然语言研究是计算机发展方向中最难的问题之一 。“在《世外桃源》中,Bernard Nightingale曾坚持认为”你不能把拜伦的思想放进笔记本电脑里“。但就现在的情况来看,他的观点仍然可能是正确的。 在控制测试中,即使像《新牛津莎士比亚》所使用的高级模式,有时也会有明显的误判,把作品张冠李戴。统计分析仍将是重要的分析工具之一。因为它有着学术的客观性,只是之前人们在莎士比亚研究领域很少用到。


以上为译文

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Revenge of the maths mob - Why literature is the ultimate big-data challenge》,由《经济学人》发布。

译者:friday012 ;审校:主题曲(身行)

文章为简译,更为详细的内容,请查看原文原文文本也可见附件

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
184 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
2月前
|
分布式计算 Hadoop 大数据
Jupyter 在大数据分析中的角色
【8月更文第29天】Jupyter Notebook 提供了一个交互式的开发环境,它不仅适用于 Python 编程语言,还能够支持其他语言,包括 Scala 和 R 等。这种多语言的支持使得 Jupyter 成为大数据分析领域中非常有价值的工具,特别是在与 Apache Spark 和 Hadoop 等大数据框架集成方面。本文将探讨 Jupyter 如何支持这些大数据框架进行高效的数据处理和分析,并提供具体的代码示例。
61 0
|
14天前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
16天前
|
JSON 数据可视化 数据挖掘
Polars函数合集大全:大数据分析的新利器
Polars函数合集大全:大数据分析的新利器
29 1
|
29天前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
30 8
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
93 11
|
2月前
|
大数据 机器人 数据挖掘
这个云ETL工具配合Python轻松实现大数据集分析,附案例
这个云ETL工具配合Python轻松实现大数据集分析,附案例
|
2月前
|
存储 分布式计算 数据处理
MaxCompute 的成本效益分析与优化策略
【8月更文第31天】随着云计算技术的发展,越来越多的企业选择将数据处理和分析任务迁移到云端。阿里云的 MaxCompute 是一款专为海量数据设计的大规模数据仓库平台,它不仅提供了强大的数据处理能力,还简化了数据管理的工作流程。然而,在享受这些便利的同时,企业也需要考虑如何有效地控制成本,确保资源得到最优利用。本文将探讨如何评估 MaxCompute 的使用成本,并提出一些优化策略以降低费用,提高资源利用率。
79 0
|
1天前
|
消息中间件 缓存 NoSQL
大数据-49 Redis 缓存问题中 穿透、雪崩、击穿、数据不一致、HotKey、BigKey
大数据-49 Redis 缓存问题中 穿透、雪崩、击穿、数据不一致、HotKey、BigKey
11 2
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
119 1