人工智能开始学习看漫画了,但仍然还赶不上人类-阿里云开发者社区

开发者社区> 开发者小助手-bz8> 正文

人工智能开始学习看漫画了,但仍然还赶不上人类

简介: 最近几年来,人工智能的能力是越来越强了,围棋、看图、听话、翻译、甚至艺术创作……这些原本被认为是人类的专属技能的领域已经出现了一些在一定程度上可与人类表现媲美的人工智能程序。人类不断地被超越常常会给人一种人类就要被人工智能取代的感觉;现在,一个研究团队终于给我们带来了安慰——至少在理解漫画上,人工智能还差得远!
+关注继续查看

近日,来自马里兰大学帕克分校和科罗拉多大学波德分校的 Mohit Iyyer 等研究者在 arXiv 上发表了一篇论文《The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives》介绍了他们这一可以给人类增加信心的研究结果。


为了了解人工智能理解漫画情节的能力如何,这些研究者首先构建了一个包含了超过 120 万张漫画画格(panel)数据集 COMICS,其中每张画格还配备有相应的文本对话框转录数据,这些加起来使得这个数据集的大小达到了 120 GB。据该论文介绍,因为版权方面的原因,这些数据集是由来自 20 世纪 30 年代到 50 年代的漫画作品构成的。


众所周知,漫画是由一系列的画格构成的,而且根据创作者的不同,不同的漫画之间的绘画风格、语言风格和排版风格之间都存在很大的差异。


A7FDB98F-8704-4753-9758-DE185F202C17.jpeg

不同绘画风格的狮子(有的更卡通更抽象,有的则更为写实),但它们都是狮子


想要理解它们,计算机需要非常具有概括性的思维方式。而且为了让读者能够看懂,漫画往往还带有形态各异的对话框,以通过文本来描述和推进情节(为了便于计算机处理,COMICS 数据集将这些对话提取成了与画格对应的文本形式)。


而更重要的是,和视频不一样,漫画的不同画格之间的时间和空间是不连贯的,中间的过渡情节往往需要读者自己的想象。这种在我们人类看来自然而然的能力对计算机来说却是难于登天。


A3A02A59-3D17-4D9F-A1F9-264E230BA76F.jpeg


第三格里面的蛇是从哪里来的?为什么它突然出现咬着这个男人?这一格里面的男人和第一格里面的男人是同一个人吗?要回答这些问题,读者需要阅读其中的对话框以「闭合(closure)」这些画格。


据介绍,这种将单张画格和之前的情节抽象地联系起来的过程叫做「闭合(closure)」。这些研究者用实际行动证明了这种能力目前仍然还是人类的专属技能。要对计算机的这种能力进行测试,研究者设计了让人工智能程序根据之前见过的画面预测下一个画格的实验。


首先,机器必须要学习漫画的操作过程。所以研究小组将漫画中的一个画格及其文本投给不同的机器算法,让它们学习一组漫画中的每个画格之间是怎么相互连接的。这些机器已经预训练过识别自然界中对象,但是还没有训练过识别卡通对象。


FF76B6DE-3821-4E4A-86FE-38B3DBDCD6D4.jpeg

来自 COMICS 的 5 个样本画格序列以及其在 COMICS 数据集中所占的比重,其中每一个都有一种不同画格之间的转换方式。


有了这些训练过的机器后,研究小组用一组机器之前没见过的漫画(包含好几个画格)测试了它们,并且要求它们预测下一张图像或者后面的一系列文本内容。


F0B1D410-A68D-4708-908B-0D81B84CF0E3.jpeg


在神经架构中结合图像和文本可以提升它们在 COMICS 故事中识别下一张图像或对话的能力。之前画格所呈现出的语境信息对所有任务都是有用的:只查看单张画格(NC-image-text)的模型的表现总是不及了解语境的模型。但是,即使表现最好的模型也还赶不上人类(Human)。


从结果我们可以看到,人类预测漫画情节或内容的正确率可以达到 80%,但是机器却很难做到。


当然,这倒没什么非常让人惊讶的。机器学习尽管近段时间以来已经在图像和文本模式识别上取得了相当优异的表现,但仍旧缺乏人类大脑所具有的常识和逻辑——而这些都是叙事性故事所必需的。


所以人类还能留有一点讲故事能力的保留地。但是这种保留地还能维持多久呢?


据了解,COMICS 数据集正在准备开源的过程中,开源后将会发布在 GitHub 上:https://github.com/miyyer/comics




以下是该研究论文的摘要介绍:


论文:The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives


摘要:视觉叙事(visual narrative)通常需要结合明确的信息和明智的遗漏,并依赖观看者来补充缺失的信息。在漫画中,大多数时间和空间的运动都隐藏在画格(panel)之间的「天沟(gutter)」之中。为了理解故事,读者需要通过逻辑将画格联系到一起,通过一个叫做「闭合(closure)」的过程将未见过的动作推理出来。现在计算机已经能够描述自然图像的内容了,在这篇论文中,我们将检验它们是否能够理解由漫画书画格中风格化的艺术作品和对话所传递的闭合驱动的叙事(closure-driven narrative)。我们收集了一个数据集 COMICS,其包含了超过 120 万张画格(120 GB),这些画格都匹配了自动文本框转录。对 COMICS 的一次深度分析表明,文本和图像都无法单独讲清一个漫画故事,所以计算机必须理解这两种形式才能跟得上情节。我们引入了三个填空式的任务,这些任务要求模型在被给出了 n 张之前的画格作为背景的情况下,预测一个画格的叙事和以角色为中心的一些方面。多种神经网络架构在这些任务上的表现都不及人类基准,这表明 COMICS 同时包含了视觉和语言上的基本挑战。


8B67C4DA-AFA2-4C10-8D55-4D8A8FE75A29.jpeg


应用于一个文本填空任务实例的图像-文本架构(image-text architecture)。预训练的图像特征与学习到的文本特征在一个分层的 LSTM 架构中结合起来构建出一个语境表征(context representation),然后该表征被用于评估候选文本。



©本文为机器之心原创文章,转载请联系本公众号获得授权

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
8661 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
2849 0
令人兴奋的 2020 年人工智能和机器学习趋势
在本文中,我们将讨论几个顶级的人工智能和机器学习趋势,将塑造新年:2020。 我们还将介绍面部识别技术及其在 2020 年的应用。
571 0
机器学习?人工智能?傻傻分不清楚?
机器学习就是人工智能?别在这样认为了,太傻了!看完本文,搞清楚它们之间的关系吧。
10207 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
10493 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
12305 0
为什么说机器学习不是人工智能?
“人智”为什么很难转成“机智”,因为人脑不是电脑,人智主要是明辨是非,机智侧重于模式识别。我们知道的远比我们说出来的要多得多,我们不知道的远比我们知道的要多得多,我们不知道我们不知道的远比我们不知道的要多得多……
1051 0
1574
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载