AI 能看懂漫画吗?它的脑补能力比人类差远了

简介:

AI 能看懂漫画吗?它的脑补能力比人类差远了

读漫画对人工智能太难了

随着人工智能的不断发展,它似乎已经在很多方面赶超了人类——面部识别、物体识别,还有象棋、围棋、各种视频游戏。

人们不禁要问,还有什么事是 AI 做不好的呢?它在哪方面比不过人类?现在,马里兰大学帕克分校 ( UMCP ) 的一项研究告诉你,读漫画可能就是其中之一。

据国外媒体报道,马里兰大学 Mohit Iyyer 教授对 AI 读漫画书的能力进行了测试。结果显示 AI 在这一领域远远比不过人类。

AI 能看懂漫画吗?它的脑补能力比人类差远了

漫画由一系列单独的图画构成,每部分都搭配文字解释,图文符合度很高。这样一来,如果单独看某一张图片或是某一句文本是很难理解到漫画意思的。

除此之外,不同作者的绘画风格、语言风格不同,排版也存在巨大的差异。而且漫画与视频不同,每张图画之间的时间和空间是不连贯的,中间的大量情节需要读者发挥想象力去脑补,这种对人类是轻而易举的事情,对 AI 却是难如登天。

Iyyer 教授用 4000 本漫画书创造了一个由 120 万张漫画画格组成的图库,每张画格配有对应的文本对话框。由于涉及版权问题,图库中的漫画全部来源于 20 世纪 30 年代到 50 年代的作品。

为了弄清楚 AI 理解漫画的能力如何,研究人员进行了让人工智能程序依靠之前见过的图画预测下一个画格的实验。首先研究小组先让 AI 学习漫画的创作过程,将漫画中的一个画格及其对应的文本投给不同的机器算法,让它们学习一组漫画中的每个画格之间是如何相互关联的。在大量训练之后,研究人员把一组AI 之前没有见过的短篇漫画集对它进行测试,并要求它预测出下一张图画或者文本的内容。结果发现,人类预测的正确率高达 80 %,而 AI 却与人类水准相差甚远。

Iyyer 教授解释,“虽然如今的 AI 已经在图像识别、文本识别上取得了不凡的成就,但是对于看漫画这种需要人类大脑进行逻辑推理和想象力思考的活动,它还是远远不及人类。不过,这也是我们今后努力的方向。”

Via technology

【招聘】雷锋网(公众号:雷锋网)(公众号:雷锋网)坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力,翻译及写作能力优良的外翻编辑加入。工作地点深圳。简历投递至 guoyixin@leiphone.com 。兼职及实习均可。

推荐阅读:

预告:MXNet火了,AI从业者该如何选择深度学习开源框架丨硬创公开课

IBM中国研究院院长沈晓卫:从编程时代迈向认知时代,没有一家企业能独担此任

 人工智能的未来 | 科大讯飞创始人刘庆峰:17年AI从业经验,从这10000字长文中一窥


本文作者:sunshine_lady


本文转自雷锋网禁止二次转载,原文链接

相关文章
|
人工智能 JavaScript 前端开发
【利用AI让知识体系化】TypeScript目标:扩展JavaScript能力(二)
【利用AI让知识体系化】TypeScript目标:扩展JavaScript能力
|
人工智能 JavaScript 前端开发
【利用AI让知识体系化】TypeScript目标:扩展JavaScript能力(一)
【利用AI让知识体系化】TypeScript目标:扩展JavaScript能力
|
机器学习/深度学习 人工智能 程序员
[AI StoryDiffusion] 创造神奇故事,AI漫画大乱斗!
探索神奇AI项目StoryDiffusion,为您带来一致性连贯的图像和视频创作体验。
[AI StoryDiffusion] 创造神奇故事,AI漫画大乱斗!
|
人工智能 Cloud Native API
Higress 重磅更新:AI 能力全面开源,云原生能力再升级
Higress 最新的 1.4 版本基于为通义千问,以及多家云上 AGI 厂商客户提供 AI 网关的积累沉淀,开源了大量 AI 原生的网关能力。同时也在 Ingress、可观测、流控等云原生能力上做了全方位升级。
21892 365
|
人工智能 开发者
AI Earth ——开发者模式案例9:OpenAPI调用AI识别能力
AI Earth ——开发者模式案例9:OpenAPI调用AI识别能力
219 0
|
人工智能 自然语言处理 机器人
AI大战因Claude 3而升温,自称拥有接近人类的能力
AI大战因Claude 3而升温,自称拥有接近人类的能力
|
人工智能 自然语言处理 API
云栖发布:通义听悟AI能力再进化,开放API接口
云栖发布:通义听悟AI能力再进化,开放API接口
|
人工智能 JSON 文字识别
印刷文字识别操作报错合集之口算判题AI能力(文字识别OCR)接口返回数据的时,不显示正确答案只判断对错吗
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
人工智能 自然语言处理
大模型为AI Agent提供强大能力
【1月更文挑战第13天】大模型为AI Agent提供强大能力
381 6
大模型为AI Agent提供强大能力
|
人工智能 自然语言处理 API
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
209 2

热门文章

最新文章