近日,来自马里兰大学帕克分校和科罗拉多大学波德分校的 Mohit Iyyer 等研究者在 arXiv 上发表了一篇论文《The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives》介绍了他们这一可以给人类增加信心的研究结果。
为了了解人工智能理解漫画情节的能力如何,这些研究者首先构建了一个包含了超过 120 万张漫画画格(panel)数据集 COMICS,其中每张画格还配备有相应的文本对话框转录数据,这些加起来使得这个数据集的大小达到了 120 GB。据该论文介绍,因为版权方面的原因,这些数据集是由来自 20 世纪 30 年代到 50 年代的漫画作品构成的。
众所周知,漫画是由一系列的画格构成的,而且根据创作者的不同,不同的漫画之间的绘画风格、语言风格和排版风格之间都存在很大的差异。
不同绘画风格的狮子(有的更卡通更抽象,有的则更为写实),但它们都是狮子
想要理解它们,计算机需要非常具有概括性的思维方式。而且为了让读者能够看懂,漫画往往还带有形态各异的对话框,以通过文本来描述和推进情节(为了便于计算机处理,COMICS 数据集将这些对话提取成了与画格对应的文本形式)。
而更重要的是,和视频不一样,漫画的不同画格之间的时间和空间是不连贯的,中间的过渡情节往往需要读者自己的想象。这种在我们人类看来自然而然的能力对计算机来说却是难于登天。
第三格里面的蛇是从哪里来的?为什么它突然出现咬着这个男人?这一格里面的男人和第一格里面的男人是同一个人吗?要回答这些问题,读者需要阅读其中的对话框以「闭合(closure)」这些画格。
据介绍,这种将单张画格和之前的情节抽象地联系起来的过程叫做「闭合(closure)」。这些研究者用实际行动证明了这种能力目前仍然还是人类的专属技能。要对计算机的这种能力进行测试,研究者设计了让人工智能程序根据之前见过的画面预测下一个画格的实验。
首先,机器必须要学习漫画的操作过程。所以研究小组将漫画中的一个画格及其文本投给不同的机器算法,让它们学习一组漫画中的每个画格之间是怎么相互连接的。这些机器已经预训练过识别自然界中对象,但是还没有训练过识别卡通对象。
来自 COMICS 的 5 个样本画格序列以及其在 COMICS 数据集中所占的比重,其中每一个都有一种不同画格之间的转换方式。
有了这些训练过的机器后,研究小组用一组机器之前没见过的漫画(包含好几个画格)测试了它们,并且要求它们预测下一张图像或者后面的一系列文本内容。
在神经架构中结合图像和文本可以提升它们在 COMICS 故事中识别下一张图像或对话的能力。之前画格所呈现出的语境信息对所有任务都是有用的:只查看单张画格(NC-image-text)的模型的表现总是不及了解语境的模型。但是,即使表现最好的模型也还赶不上人类(Human)。
从结果我们可以看到,人类预测漫画情节或内容的正确率可以达到 80%,但是机器却很难做到。
当然,这倒没什么非常让人惊讶的。机器学习尽管近段时间以来已经在图像和文本模式识别上取得了相当优异的表现,但仍旧缺乏人类大脑所具有的常识和逻辑——而这些都是叙事性故事所必需的。
所以人类还能留有一点讲故事能力的保留地。但是这种保留地还能维持多久呢?
据了解,COMICS 数据集正在准备开源的过程中,开源后将会发布在 GitHub 上:https://github.com/miyyer/comics
以下是该研究论文的摘要介绍:
论文:The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives
摘要:视觉叙事(visual narrative)通常需要结合明确的信息和明智的遗漏,并依赖观看者来补充缺失的信息。在漫画中,大多数时间和空间的运动都隐藏在画格(panel)之间的「天沟(gutter)」之中。为了理解故事,读者需要通过逻辑将画格联系到一起,通过一个叫做「闭合(closure)」的过程将未见过的动作推理出来。现在计算机已经能够描述自然图像的内容了,在这篇论文中,我们将检验它们是否能够理解由漫画书画格中风格化的艺术作品和对话所传递的闭合驱动的叙事(closure-driven narrative)。我们收集了一个数据集 COMICS,其包含了超过 120 万张画格(120 GB),这些画格都匹配了自动文本框转录。对 COMICS 的一次深度分析表明,文本和图像都无法单独讲清一个漫画故事,所以计算机必须理解这两种形式才能跟得上情节。我们引入了三个填空式的任务,这些任务要求模型在被给出了 n 张之前的画格作为背景的情况下,预测一个画格的叙事和以角色为中心的一些方面。多种神经网络架构在这些任务上的表现都不及人类基准,这表明 COMICS 同时包含了视觉和语言上的基本挑战。
应用于一个文本填空任务实例的图像-文本架构(image-text architecture)。预训练的图像特征与学习到的文本特征在一个分层的 LSTM 架构中结合起来构建出一个语境表征(context representation),然后该表征被用于评估候选文本。
©本文为机器之心原创文章,转载请联系本公众号获得授权。