阿里AI打破视觉对话识别纪录,机器看图说话能力比肩人类

简介: 近日, 在第二届视觉对话竞赛Visual Dialogue Challenge中,阿里AI击败了微软、首尔大学等十支参赛队伍,获得冠军。

近日, 在第二届视觉对话竞赛Visual Dialogue Challenge中,阿里AI击败了微软、首尔大学等十支参赛队伍,获得冠军。

_AI_

(阿里AI在视觉对话竞赛中得冠)

视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%。在相同的数据集中,人类的准确率仅为64.27%。

传统的视觉AI主要针对目标的检测和识别,例如识别出图片是否是一只猫,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题,也难以将图片信息转化为人类理解的语言输出。

阿里AI的突破在于提出了“递归探索对话模型”,综合集成了图像识别、关系推理与自然语言理解三大能力,它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式,能够有效识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,理解人类提出的问题及真实意图,给出自然准确的回复。

_AI_

(视觉对话中,AI可以从容应对人类提问,左为AI,右为人类)

视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术,让机器具备了视觉能力;那么视觉对话技术,则使得机器拥有了对真实视觉世界的理解与推断能力,意味着AI的认知能力将迈上新的台阶。

_

(视觉对话技术有望人类提高地震救援效率)

据了解,这项技术未来将被应用在人机交互诸多场景: 地震后在废墟中寻找幸存者的救援机器人,能够更加及时、高效地综合指挥指令和场景信息作出行动;视障人士可以通过提问阿里AI,理解网络照片中的内容,了解自身所处的周围环境;无人驾驶车辆对影响因子的意图理解会更为准确,乘客的乘坐体验更好。

相关文章
|
1天前
|
人工智能 Windows
LabVIEW将视觉生成器AI用作OPC服务器
LabVIEW将视觉生成器AI用作OPC服务器
11 2
|
5天前
|
消息中间件 人工智能 监控
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI】生成式AI,对话式AI,LLM,SLM 差异分析
【5月更文挑战第6天】生成式AI,对话式AI,LLM,SLM 学习
|
14天前
|
人工智能 安全 Linux
《龙蜥理事说》第二期对话统信软件 AI 让操作系统更智能
统信软件携手龙蜥生态提供更好操作系统服务。
|
16天前
|
人工智能
[AI 阿里 EMO] 集成进通义千问app,全民演唱,人人可用!
阿里EMO技术的最新进展,现在集成进通义千问app,允许用户通过图+音频生成任意时长的视频,实现全民演唱的互动体验。
[AI 阿里 EMO] 集成进通义千问app,全民演唱,人人可用!
|
18天前
|
人工智能 自然语言处理 API
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部
微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部
|
18天前
|
人工智能 运维 自然语言处理
对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程
超70%代码问题,单纯靠基座大模型是解决不了的;未来3-5年,人类50%编程工作可以被替代,有些环节甚至完全自动化。蚂蚁集团代码大模型CodeFuse负责人李建国说道。当下,AI代码生成领域正在野蛮式生长,巨头涌入,AI员工频频上线企业;首个AI程序员Devin被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。
35 0
|
19天前
|
人工智能 API 决策智能
【AI Agent系列】【阿里AgentScope框架】实战1:利用AgentScope实现动态创建Agent和自由组织讨论
【AI Agent系列】【阿里AgentScope框架】实战1:利用AgentScope实现动态创建Agent和自由组织讨论
122 2
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1660 0
与世界同行 2017中国人工智能大会有感