视觉问答领域又一力作!斯坦福大学教授发布图像场景图问答数据集 GQA

简介: 旨在推动场景理解与视觉问答研究领域的进步。

雷锋网 AI 科技评论:GQA 是斯坦福大学教授 Christopher Manning 及其学生 Drew Hudson 一同打造的全新图像场景图问答数据集,旨在推动场景理解与视觉问答研究领域的进步。

TB1PCnMEFzqK1RjSZFvXXcB7VXa.jpg

据 Christopher Manning 教授及其学生 Drew Hudson 调查后发现,现有的视觉问答数据集主要存在两种缺陷:一个是基准失误,当中包括了基于语言先验的偏见、视觉偏见、过分关注显着对象、来源有误、对象缺位、答案不合逻辑、模型反应不一致等;一个是推理数据集的数量很有限。

为此,他们开发了一个用于对现实世界的图像进行视觉推理与综合回答的全新数据集 GQA,该数据集包含高达 20M 的各种日常生活图像,主要源自于 COCO 和 Flickr。每张图像都与图中的物体、属性与关系的场景图(scene graph)相关,创建上基于最新清洁版本的 Visual Genome。此外,每个问题都与其语义的结构化表示相关联,功能程序上指定必须采取一定的推理步骤才能进行回答。

GQA 数据集的许多问题涉及多种推理技巧、空间理解以及多步推理,比起人们先前常用的视觉回答数据集,更具有挑战性。他们保证了数据集的平衡性,严格控制不同问题组的答案分布,以防止人们通过语言和世界先验知识进行有据猜测。

TB1GkTLEHvpK1RjSZPiXXbmwXXa.jpg

最后,他们通过一套全新的指标来完善数据集,该指标不仅能测试模型的精确度,还可预测模型响应的一致性、有效性于合理性,从而帮助我们更了解模型背后的运作原理。虽说问题是自动生成的,但由于生成主要基于自然语言众包场景图,因此在语法性、多样性和惯用性上将有所保障。

为了鼓励更多人尝试使用 GQA 数据集,他们将从 2019 年 2 月 开始举办相关比赛。他们希望 GQA 成为开发更强大和更有说服力的推理模型的关键助力,进而推动场景理解与视觉问答研究领域的进步。

via https://cs.stanford.edu/people/dorarad/gqa/download.html

雷锋网(公众号:雷锋网) AI 科技评论                                                     雷锋网

目录
相关文章
fbh
|
关系型数据库 MySQL 数据库
mysql数据库执行mysqladmin flush-hosts方法
当连接错误次数过多时,mysql会禁止客户机连接,这个时候有两个办法解决: 1.使用mysqladmin flush-hosts命令清除缓存,命令执行方法如下: 命令行或终端:mysqladmin  -u  root  -p  flush-hosts 接着输入root账号密码即可   2.
fbh
8174 0
|
5月前
|
人工智能 API 调度
在 VSCode 中薅大模型羊毛?我用 Kilo Code + AI Ping 实现大模型智能编程
如今,借助开放的大模型调度平台,普通开发者也能灵活接入高性能大模型。 Kilo Code + 兼容 OpenAI 协议平台的组合,体现了技术民主化的趋势——让创新不再被使用门槛阻挡。
3351 1
|
9月前
|
敏捷开发 数据可视化 JavaScript
任务归类配置工具深度解析:核心逻辑、适配场景与最佳实践全揭示
在项目管理中,任务分配混乱常导致效率低下、责任不清。本文深入剖析任务管理痛点,提出“任务归类配置”机制,通过结构化分类、角色匹配、优先级设定等方式,帮助团队实现任务清晰归属、高效推进,提升整体协作效率。
|
监控 物联网 网络架构
|
JavaScript API
Vue3中的计算属性能否动态修改
【9月更文挑战第5天】Vue3中的计算属性能否动态修改
761 10
|
JSON 搜索推荐 数据挖掘
Temu商品列表数据接口(Temu API系列)
Temu作为新兴跨境电商平台,为全球卖家和消费者搭建便捷交易桥梁。通过商品列表数据接口,开发者、分析师可获取商品名称、价格、销量等信息,助力市场调研、商品管理和数据分析。接口支持HTTP GET请求,参数包括品类、价格区间、排序方式等,响应格式为JSON。Python示例代码展示了如何调用API获取数据,应用场景涵盖竞争对手分析、选品参考、销售预测及个性化推荐系统开发等。
4115 24
|
自然语言处理 测试技术 API
MindIE BenchMark
MindIE Benchmark工具通过部署昇腾服务化配套包,以终端命令方式测试大语言模型在不同配置下的推理性能和精度。它支持Client和Engine两种推理模式:Client模式适用于多用户并发场景,兼容多种接口;Engine模式直接调用底层API,测量NPU卡的真实性能。该工具支持多个数据集进行精度和性能测试,如CEval 5-shot、CMMLU、GSM8K等,并将结果保存为本地csv文件。评测方法包括调用大模型输入题目,解析返回结果并与正确答案比较,计算平均分和其他指标如准确率、EM等。
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
656 1
|
存储 Java 数据库连接
数据库三范式详解及应用
数据库三范式详解及应用
|
机器学习/深度学习
【元学习meta-learning】通俗易懂讲解元学习以及与监督学习的区别
本文通过通俗易懂的方式解释了元学习(Meta-learning)的概念及其与传统监督学习的区别,并通过实例说明了元学习是如何让模型具备快速学习新任务的能力。
4192 0