重大突破!达摩院AI刷新全球VQA纪录

简介: 阿里巴巴达摩院以81.26%的准确率创造了新纪录让AI在“读图会意”上首次超越人类基准

近日,国际权威机器视觉问答榜单

VQA Leaderboard出现关键突破

阿里巴巴达摩院以81.26%的准确率

创造了新纪录

让AI在“读图会意”上首次超越人类基准


image.png
近10年来,AI技术保持高速发展。然而在视觉问答VQA(Visual Question Answering)这一涉及视觉-文本多模态理解的高阶认知任务上,AI始终未取得超越人类水平的突破。

为攻克这一难题而设立的挑战赛VQA Challenge,自2015年起先后于全球计算机视觉顶会ICCV及CVPR举办,形成了国际上规模最大、认可度最高的VQA数据集,其包含超20万张真实照片、110万道考题。

在首届VQA挑战赛上,AI的最高准确率仅能达到55%。今年8月,达摩院以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线80.83%。

这是VQA测试以来,AI第一次超过人类水平,是标志性的重大突破。
image.png

VQA技术自2015年的进展


01什么是VQA?

自然语言技术与计算机视觉交融,是多模态领域重要的前沿研究方向。其中,VQA是AI领域难度最高的挑战之一,对研发通用AI具有重要意义。

VQA的任务是根据给定图片及自然语言问题,生成正确的自然语言回答。

例如下面这张图,AI先提取了问题关键信息——玩具人;再根据常识做出回答——星球大战。

VQA问题

What movie franchise are the action figures from?(图中玩具人的IP出自哪部电影?)
image.png
完成VQA挑战,需要AI从图像中提取与问题相关的信息,包含从细微物体的监测到抽象场景的推理,并基于对视觉、语言和常识性知识的理解做出回答,也就是“读图会意”——通过视觉理解信息,是人类的一项基础能力,但对AI来说却是要求极高的认知任务。

VQA挑战的核心难点也在于此:单个AI模型需融合复杂的计算机视觉及自然语言技术,才能够根据给定的图片以及自然语言问题生成正确的回答。
image.png
02 VQA高分背后

为了解决VQA挑战,达摩院对AI视觉-文本推理体系进行了系统性的设计,并融合大量算法创新,针对运算流程进行优化:

提升图片理解能力

测试中,AI需要先对图像信息进行扫描,为提高图片理解能力,达摩院运用了多项创新算法。

多样性视觉特征表示:同时使用Region,Grid,Patch等多样性视觉特征表示,从各方面刻画图片的局部和全局语义信息。
image.png

更好地让AI理解图文关联

AI需结合对问题文本的理解,建立图片与文字的关联性:即多模态信息融合。

多模态预训练模型:达摩院提出SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等预训练模型,用于进行多模态信息融合和语义映射。

自适应的跨模态语义融合和对齐技术:为使这一融合更加高效,研发自适应的跨模态语义融合和对齐技术,在预训练模型中,加入了Learning to Attend机制。
image.png
其中自研的多模态预训练模型E2E-VLP,StructuralLM已被国际顶级会议ACL2021接受。

相关论文:

1.E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning, ACL2021

2.A Structural Pre-trained Model for Table and Form Understanding, ACL 2021

3.SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels

让AI更有常识

在图文融合基础上,为AI增加更多常识性内容,提高对图片和文本的理解推理能力。

知识驱动的多技能AI集成:采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成,类似于为AI增加计数、读钟表等生活技能,以及百科知识等“人类常识”。
image.png
03 VQA的未来

VQA技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等领域,或将变革人机交互方式。

目前,VQA技术已在阿里内部应用于智能客服、直播视频交互、跨模态搜索等场景。

例如部分淘宝天猫商家的店小蜜客服开通了VQA视觉问答功能:一般商品详情海报上包含了大量有价值的商品信息,当消费者对商品进行提问时,AI客服可通过理解、检索商品海报进行回答,如裁切一张小图作为答案。

这既能够快速帮助消费者解决疑问,也能为卖家节省了大量配置成本。盒马、考拉的客服场景,闲鱼的图文同款匹配场景也接入了VQA能力。
image.png
未来,当VQA技术在电商领域成熟运用后,还将被推广至医疗问诊等更广泛的社会应用领域。

备注:来源| 阿里云公众号

相关文章
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
156 0
|
4月前
|
机器学习/深度学习 人工智能 达摩院
阿里巴巴达摩院“绿色能源AI”解决方案
阿里巴巴达摩院决策智能实验室致力于研究决策智能系统需要的国际前沿技术,提升业务运营效率和收益、降低成本。在电力能源行业构建出“绿色能源AI”方案,与国家电网、南方电网等企业合作落地多个项目。代表作软件是行业领先的MindOpt优化求解器、智能电力预测eForecaster、MindOpt Studio决策开发云平台。研究方向包含机器学习、数学建模、优化求解、 时序预测、因果分析、决策方案可解释性、决策推理大模型等。本篇是达摩院“绿色能源AI"方案的介绍幻灯片图,供大家了解方案的能力。
537 1
|
9月前
|
人工智能 达摩院 算法
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
|
9月前
|
人工智能 监控 算法
【视觉智能AI场景解决方案——智慧物流车牌识别】
随着AI技术的问世,物流行业迎来了速度、准确率、系统化的全方位提升 。通过使用AI识别车牌与车辆功能,物流企业可以实现对车辆的快速、准确的识别,提高物流车辆的管理效率。此外,AI还可以帮助物流企业实现对车辆功能的识别,如车辆类型、载重等,为物流调度提供更加科学的指导。AI识别车牌与车辆功能的应用正日益普及,为智慧物流行业带来了新的发展机遇。
373 0
|
9月前
|
人工智能 vr&ar
【视觉智能AI场景解决方案——AI视频互动娱乐】
如今我们正逐渐进入一个智能化时代,AI视频互动娱乐在娱乐场景中被广泛应用。它利用先进的人工智能技术和互动性强的视频娱乐形式,为用户带来全新的娱乐体验。无论是与虚拟角色互动竞技,还是参与丰富多样的虚拟现实体验,AI视频互动娱乐都能让用户沉浸其中。现如今我们可以在电子游戏、电影、电视节目等传统娱乐形式中见到视觉AI的影子。 那么,AI和我们的生活娱乐中能撞出什么火花?来看看当下最火爆的视频互娱新玩法吧~
851 3
|
10月前
|
人工智能 算法 安全
【视觉智能AI场景解决方案——智慧考勤】
随着科技和经济的发展,考勤管理制度无论是对于企业还是学习,都是相对重要的管理制度。在传统考勤制度中,员工的出勤和工时需要依靠人工记录,并需要相应的人力来处理和审批。这种方式在浪费了时间和人力成本的基础上,还极易出现数据记录错误,造成一系列严重的后果。现如今,随着视觉智能AI的发展,智慧考勤可以实现。除了可以解决传统的考勤制度中的劣势之外, 还具备完善的数据传输和保存系统,管理者可以更好地利用考勤数据和实时通知系统,更好地规划资源和调整工作安排。
433 2
|
10月前
|
人工智能 算法 开发工具
【视觉智能AI场景解决方案——AI智慧运动】
  随着全民健身热潮的提升,智慧健身运动随着数字化新技术的进步,以及在运动健身领域的应用逐渐趋于成熟,智能运动健身将为传统运动健身提供更多新的方向和玩法,满足不同项目爱好者的健身需求。随着AI运动健身技术的进一步普及与应用,基于ai的智慧健身运动技术未来可打造的场景化空间会越来越多,体育运动与科技娱乐,智慧健身运动在线上体育行业未来会创新运动场景,丰富运动体验,提升竞技娱乐性,推动全民健身走向新的高度。
720 3
【视觉智能AI场景解决方案——AI智慧运动】
|
10月前
|
人工智能 边缘计算 达摩院
让 AI 更简单 人工智能平台 SEAL 携手龙蜥落地达摩院算法能力 | 龙蜥案例
轻量、高效、易扩展,龙蜥操作系统可以满足 AI 业务私有化部署的高要求。
|
11月前
|
机器学习/深度学习 云安全 人工智能
《达摩院2023十大科技趋势》——场景变换——生成式 AI
《达摩院2023十大科技趋势》——场景变换——生成式 AI
716 1
|
11月前
|
机器学习/深度学习 人工智能 缓存
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(1)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
119 0