港科大等发布多模态图推理问答数据集GITQA

简介: 【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA

f70aafc38487bef989f1db887653bb01.jpeg
近年来,随着人工智能领域的不断发展,图推理问题逐渐成为了研究的热点之一。在图推理中,模型需要理解和推理图形结构中的信息,以解决各种问题,如判断图中是否存在环、计算最短路径等。为了促进图推理研究的发展,香港科技大学等机构发布了一个名为GITQA的多模态图推理问答数据集,该数据集的发布为相关研究提供了重要的资源和平台。

GITQA数据集是一个包含超过423K个问答实例的多模态图推理问答数据集。每个实例都包含图结构、文本和视觉信息以及对应的问答对。通过构建这个数据集,研究人员旨在探究视觉图在图推理中的作用,并且为模型提供了不同模态的信息,以便进行更准确和全面的推理。

实验结果表明,视觉图在图推理中起着重要的作用。相比于仅使用文本信息的模型,同时使用视觉和文本信息的模型在图推理任务上表现更好。这表明,视觉信息能够为模型提供额外的推理依据,从而提升了模型的性能和泛化能力。

研究人员发现,视觉和文本在处理不同类型的图推理任务时各具优势。在某些任务中,如Cycle和BGM任务,视觉模态的表现优于文本模态;而在其他任务中,则相反。这表明,在设计图推理模型时,需要综合考虑不同任务的特点,合理利用视觉和文本信息。

通过微调后的多模态模型,其性能可以超越单模态模型。实验结果显示,经过双模态微调的模型在图推理任务上表现更好,这进一步验证了同时使用视觉和文本信息可以增强模型的图推理能力。

实验结果还表明,在不同的难度级别下,视觉和文本模态的性能会有所变化。在某些任务中,只使用视觉模态的模型表现优于文本模态,并且与使用两种模态的模型相当;而在其他任务中,随着难度的增加,只使用视觉模态的模型性能显著下降。这表明,在设计图推理模型时,需要考虑任务的难度级别,合理选择模态信息。

研究人员还探究了不同的数据增强策略对模型性能的影响。实验结果显示,基于布局的数据增强策略对图推理提供了更有效的视觉视角,能够显著提升模型的推理能力。这为进一步改进图推理模型提供了重要的启示。

GITQA数据集的发布为图推理研究提供了重要的资源和平台,为研究人员深入探究图推理问题提供了新的契机。未来,我们可以基于这个数据集开展更深入和广泛的研究,进一步提升图推理模型的性能和泛化能力,推动人工智能技术的发展和应用。

目录
相关文章
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
147 60
|
30天前
|
Swift
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
78 10
|
3月前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
58 1
|
5月前
|
编解码 自然语言处理 计算机视觉
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
【6月更文挑战第29天】DynRefer,一款超越CVPR 2024的多模态识别工具,通过模拟人类视觉的动态分辨率,提升区域级任务的准确性和适应性。在区域字幕生成、识别和属性检测上取得SOTA,但计算成本高且可能依赖于对齐精度。[链接: https://arxiv.org/abs/2405.16071]
56 1
|
6月前
|
编解码 人工智能 自然语言处理
七火山发布Etna文生视频模型
【2月更文挑战第17天】七火山发布Etna文生视频模型
846 2
七火山发布Etna文生视频模型
|
人工智能 算法
阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023
近日CIKM 2023上,阿里云人工智能平台PAI和华东师范大学陈岑副教授团队主导的扩散模型加速采样算法论文《Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models》入选。此次入选意味着阿里云人工智能平台 PAI自研的扩散模型算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
|
机器学习/深度学习 人工智能 自然语言处理
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
158 0
|
机器学习/深度学习 存储 缓存
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
288 0