人工智能开始学习看漫画了,但仍然还赶不上人类

简介: 最近几年来,人工智能的能力是越来越强了,围棋、看图、听话、翻译、甚至艺术创作……这些原本被认为是人类的专属技能的领域已经出现了一些在一定程度上可与人类表现媲美的人工智能程序。人类不断地被超越常常会给人一种人类就要被人工智能取代的感觉;现在,一个研究团队终于给我们带来了安慰——至少在理解漫画上,人工智能还差得远!

近日,来自马里兰大学帕克分校和科罗拉多大学波德分校的 Mohit Iyyer 等研究者在 arXiv 上发表了一篇论文《The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives》介绍了他们这一可以给人类增加信心的研究结果。


为了了解人工智能理解漫画情节的能力如何,这些研究者首先构建了一个包含了超过 120 万张漫画画格(panel)数据集 COMICS,其中每张画格还配备有相应的文本对话框转录数据,这些加起来使得这个数据集的大小达到了 120 GB。据该论文介绍,因为版权方面的原因,这些数据集是由来自 20 世纪 30 年代到 50 年代的漫画作品构成的。


众所周知,漫画是由一系列的画格构成的,而且根据创作者的不同,不同的漫画之间的绘画风格、语言风格和排版风格之间都存在很大的差异。


A7FDB98F-8704-4753-9758-DE185F202C17.jpeg

不同绘画风格的狮子(有的更卡通更抽象,有的则更为写实),但它们都是狮子


想要理解它们,计算机需要非常具有概括性的思维方式。而且为了让读者能够看懂,漫画往往还带有形态各异的对话框,以通过文本来描述和推进情节(为了便于计算机处理,COMICS 数据集将这些对话提取成了与画格对应的文本形式)。


而更重要的是,和视频不一样,漫画的不同画格之间的时间和空间是不连贯的,中间的过渡情节往往需要读者自己的想象。这种在我们人类看来自然而然的能力对计算机来说却是难于登天。


A3A02A59-3D17-4D9F-A1F9-264E230BA76F.jpeg


第三格里面的蛇是从哪里来的?为什么它突然出现咬着这个男人?这一格里面的男人和第一格里面的男人是同一个人吗?要回答这些问题,读者需要阅读其中的对话框以「闭合(closure)」这些画格。


据介绍,这种将单张画格和之前的情节抽象地联系起来的过程叫做「闭合(closure)」。这些研究者用实际行动证明了这种能力目前仍然还是人类的专属技能。要对计算机的这种能力进行测试,研究者设计了让人工智能程序根据之前见过的画面预测下一个画格的实验。


首先,机器必须要学习漫画的操作过程。所以研究小组将漫画中的一个画格及其文本投给不同的机器算法,让它们学习一组漫画中的每个画格之间是怎么相互连接的。这些机器已经预训练过识别自然界中对象,但是还没有训练过识别卡通对象。


FF76B6DE-3821-4E4A-86FE-38B3DBDCD6D4.jpeg

来自 COMICS 的 5 个样本画格序列以及其在 COMICS 数据集中所占的比重,其中每一个都有一种不同画格之间的转换方式。


有了这些训练过的机器后,研究小组用一组机器之前没见过的漫画(包含好几个画格)测试了它们,并且要求它们预测下一张图像或者后面的一系列文本内容。


F0B1D410-A68D-4708-908B-0D81B84CF0E3.jpeg


在神经架构中结合图像和文本可以提升它们在 COMICS 故事中识别下一张图像或对话的能力。之前画格所呈现出的语境信息对所有任务都是有用的:只查看单张画格(NC-image-text)的模型的表现总是不及了解语境的模型。但是,即使表现最好的模型也还赶不上人类(Human)。


从结果我们可以看到,人类预测漫画情节或内容的正确率可以达到 80%,但是机器却很难做到。


当然,这倒没什么非常让人惊讶的。机器学习尽管近段时间以来已经在图像和文本模式识别上取得了相当优异的表现,但仍旧缺乏人类大脑所具有的常识和逻辑——而这些都是叙事性故事所必需的。


所以人类还能留有一点讲故事能力的保留地。但是这种保留地还能维持多久呢?


据了解,COMICS 数据集正在准备开源的过程中,开源后将会发布在 GitHub 上:https://github.com/miyyer/comics




以下是该研究论文的摘要介绍:


论文:The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives


摘要:视觉叙事(visual narrative)通常需要结合明确的信息和明智的遗漏,并依赖观看者来补充缺失的信息。在漫画中,大多数时间和空间的运动都隐藏在画格(panel)之间的「天沟(gutter)」之中。为了理解故事,读者需要通过逻辑将画格联系到一起,通过一个叫做「闭合(closure)」的过程将未见过的动作推理出来。现在计算机已经能够描述自然图像的内容了,在这篇论文中,我们将检验它们是否能够理解由漫画书画格中风格化的艺术作品和对话所传递的闭合驱动的叙事(closure-driven narrative)。我们收集了一个数据集 COMICS,其包含了超过 120 万张画格(120 GB),这些画格都匹配了自动文本框转录。对 COMICS 的一次深度分析表明,文本和图像都无法单独讲清一个漫画故事,所以计算机必须理解这两种形式才能跟得上情节。我们引入了三个填空式的任务,这些任务要求模型在被给出了 n 张之前的画格作为背景的情况下,预测一个画格的叙事和以角色为中心的一些方面。多种神经网络架构在这些任务上的表现都不及人类基准,这表明 COMICS 同时包含了视觉和语言上的基本挑战。


8B67C4DA-AFA2-4C10-8D55-4D8A8FE75A29.jpeg


应用于一个文本填空任务实例的图像-文本架构(image-text architecture)。预训练的图像特征与学习到的文本特征在一个分层的 LSTM 架构中结合起来构建出一个语境表征(context representation),然后该表征被用于评估候选文本。



©本文为机器之心原创文章,转载请联系本公众号获得授权

相关文章
|
14天前
|
人工智能 自然语言处理 搜索推荐
人工智能与教育:个性化学习的未来
【10月更文挑战第31天】在科技飞速发展的今天,人工智能(AI)正深刻改变教育领域,尤其是个性化学习的兴起。本文探讨了AI如何通过智能分析、个性化推荐、智能辅导和虚拟现实技术推动个性化学习,分析了其带来的机遇与挑战,并展望了未来的发展前景。
|
16天前
|
人工智能 搜索推荐 语音技术
人工智能与未来教育:重塑学习方式的双刃剑
在21世纪,人工智能(AI)技术正以前所未有的速度发展,深刻影响着社会的各个方面,其中包括教育领域。本文探讨了AI如何改变传统教育模式,提出其既带来积极影响也伴随着挑战的观点。通过分析具体案例和数据,文章旨在启发读者思考如何在保留人类教师不可替代价值的同时,有效利用AI技术优化教育体验。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来教育:重塑学习体验
【10月更文挑战第20天】 在21世纪的今天,人工智能(AI)技术正以前所未有的速度改变着我们的生活、工作和学习方式。本文探讨了AI如何深刻影响未来教育的各个方面,从个性化学习路径的设计到智能辅导系统的开发,再到虚拟现实(VR)和增强现实(AR)技术在学习中的应用。通过分析这些变革,我们不仅能够预见一个更加高效、互动和包容的教育未来,而且还能理解这一过程中所面临的挑战和机遇。文章强调了持续创新的重要性,并呼吁教育工作者、技术开发者和政策制定者共同努力,以确保技术进步惠及每一个学习者。
45 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在教育中的创新应用:个性化学习的未来
【9月更文挑战第18天】人工智能在教育中的创新应用正在深刻改变着我们的教学方式和学习体验。从个性化学习方案的制定到智能化辅导与反馈,从多元化学习资源的推荐到自动化评分与智能考试系统,AI技术正在为教育领域带来前所未有的变革。面对这一变革,我们需要以开放和批判的态度拥抱它,共同探索AI时代教育的无限可能,为每一个学习者创造更美好的未来。
209 12
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】学习人工智能需要学习哪些课程,从入门到进阶到高级课程区分
基于人工智能的多学科特性和其广泛的应用领域,学习这一技术涉及从基础理论到实践应用的各个层面。入门阶段应重点掌握数学基础、编程语言学习以及数据结构和算法等。进阶阶段需要深入机器学习、深度学习以及自然语言处理等专题。高级课程则包括专业核心课程、认知心理学与神经科学基础以及计算机图形学等课程
112 1
|
3月前
|
数据采集 人工智能 数据可视化
【2023年电工杯竞赛】B题 人工智能对大学生学习影响的评价 数学建模方案和python代码
本文介绍了2023年电工杯竞赛B题的数学建模方案和Python代码实现,详细阐述了如何分析调查问卷数据,建立评价指标体系,构建数学模型评估人工智能对大学生学习的影响,并提供了数据预处理、特征编码、可视化分析等代码示例。
59 0
【2023年电工杯竞赛】B题 人工智能对大学生学习影响的评价 数学建模方案和python代码
|
3月前
|
机器学习/深度学习 人工智能 算法
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
120 0
|
4月前
|
机器学习/深度学习 人工智能 缓存
人工智能平台PAI使用问题之如何配置学习任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
智能增强:人工智能在个性化学习中的应用
【6月更文挑战第22天】随着技术的不断进步,人工智能(AI)已经渗透到教育领域,为个性化学习带来了革命性的变化。本文将探讨AI如何通过数据分析、模式识别和自适应学习路径等技术手段,实现对学生学习能力和偏好的精准把握,并据此提供定制化的学习内容和策略。文章还将分析AI在提升教育质量、促进教育公平以及预测学生表现等方面的潜力与挑战,旨在揭示AI技术如何在塑造未来教育格局中发挥关键作用。
|
5月前
|
机器学习/深度学习 人工智能 TensorFlow
怎样学习人工智能
【6月更文挑战第27天】怎样学习人工智能。
80 4
下一篇
无影云桌面