港科大等发布多模态图推理问答数据集GITQA

简介: 【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA

f70aafc38487bef989f1db887653bb01.jpeg
近年来,随着人工智能领域的不断发展,图推理问题逐渐成为了研究的热点之一。在图推理中,模型需要理解和推理图形结构中的信息,以解决各种问题,如判断图中是否存在环、计算最短路径等。为了促进图推理研究的发展,香港科技大学等机构发布了一个名为GITQA的多模态图推理问答数据集,该数据集的发布为相关研究提供了重要的资源和平台。

GITQA数据集是一个包含超过423K个问答实例的多模态图推理问答数据集。每个实例都包含图结构、文本和视觉信息以及对应的问答对。通过构建这个数据集,研究人员旨在探究视觉图在图推理中的作用,并且为模型提供了不同模态的信息,以便进行更准确和全面的推理。

实验结果表明,视觉图在图推理中起着重要的作用。相比于仅使用文本信息的模型,同时使用视觉和文本信息的模型在图推理任务上表现更好。这表明,视觉信息能够为模型提供额外的推理依据,从而提升了模型的性能和泛化能力。

研究人员发现,视觉和文本在处理不同类型的图推理任务时各具优势。在某些任务中,如Cycle和BGM任务,视觉模态的表现优于文本模态;而在其他任务中,则相反。这表明,在设计图推理模型时,需要综合考虑不同任务的特点,合理利用视觉和文本信息。

通过微调后的多模态模型,其性能可以超越单模态模型。实验结果显示,经过双模态微调的模型在图推理任务上表现更好,这进一步验证了同时使用视觉和文本信息可以增强模型的图推理能力。

实验结果还表明,在不同的难度级别下,视觉和文本模态的性能会有所变化。在某些任务中,只使用视觉模态的模型表现优于文本模态,并且与使用两种模态的模型相当;而在其他任务中,随着难度的增加,只使用视觉模态的模型性能显著下降。这表明,在设计图推理模型时,需要考虑任务的难度级别,合理选择模态信息。

研究人员还探究了不同的数据增强策略对模型性能的影响。实验结果显示,基于布局的数据增强策略对图推理提供了更有效的视觉视角,能够显著提升模型的推理能力。这为进一步改进图推理模型提供了重要的启示。

GITQA数据集的发布为图推理研究提供了重要的资源和平台,为研究人员深入探究图推理问题提供了新的契机。未来,我们可以基于这个数据集开展更深入和广泛的研究,进一步提升图推理模型的性能和泛化能力,推动人工智能技术的发展和应用。

目录
相关文章
|
15天前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
88 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
3月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
194 60
|
2月前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
43 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
4月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
96 10
|
5月前
|
人工智能 编解码 自然语言处理
AI文生图模型DALL·E 3
8月更文挑战第15天
|
数据采集 人工智能 算法
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
200 0
|
计算机视觉
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
370 0
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
149 0
|
机器学习/深度学习 人工智能 自然语言处理
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(1)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
133 0
|
自然语言处理 数据可视化 算法
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(2)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
201 0