港科大等发布多模态图推理问答数据集GITQA

简介: 【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA

f70aafc38487bef989f1db887653bb01.jpeg
近年来,随着人工智能领域的不断发展,图推理问题逐渐成为了研究的热点之一。在图推理中,模型需要理解和推理图形结构中的信息,以解决各种问题,如判断图中是否存在环、计算最短路径等。为了促进图推理研究的发展,香港科技大学等机构发布了一个名为GITQA的多模态图推理问答数据集,该数据集的发布为相关研究提供了重要的资源和平台。

GITQA数据集是一个包含超过423K个问答实例的多模态图推理问答数据集。每个实例都包含图结构、文本和视觉信息以及对应的问答对。通过构建这个数据集,研究人员旨在探究视觉图在图推理中的作用,并且为模型提供了不同模态的信息,以便进行更准确和全面的推理。

实验结果表明,视觉图在图推理中起着重要的作用。相比于仅使用文本信息的模型,同时使用视觉和文本信息的模型在图推理任务上表现更好。这表明,视觉信息能够为模型提供额外的推理依据,从而提升了模型的性能和泛化能力。

研究人员发现,视觉和文本在处理不同类型的图推理任务时各具优势。在某些任务中,如Cycle和BGM任务,视觉模态的表现优于文本模态;而在其他任务中,则相反。这表明,在设计图推理模型时,需要综合考虑不同任务的特点,合理利用视觉和文本信息。

通过微调后的多模态模型,其性能可以超越单模态模型。实验结果显示,经过双模态微调的模型在图推理任务上表现更好,这进一步验证了同时使用视觉和文本信息可以增强模型的图推理能力。

实验结果还表明,在不同的难度级别下,视觉和文本模态的性能会有所变化。在某些任务中,只使用视觉模态的模型表现优于文本模态,并且与使用两种模态的模型相当;而在其他任务中,随着难度的增加,只使用视觉模态的模型性能显著下降。这表明,在设计图推理模型时,需要考虑任务的难度级别,合理选择模态信息。

研究人员还探究了不同的数据增强策略对模型性能的影响。实验结果显示,基于布局的数据增强策略对图推理提供了更有效的视觉视角,能够显著提升模型的推理能力。这为进一步改进图推理模型提供了重要的启示。

GITQA数据集的发布为图推理研究提供了重要的资源和平台,为研究人员深入探究图推理问题提供了新的契机。未来,我们可以基于这个数据集开展更深入和广泛的研究,进一步提升图推理模型的性能和泛化能力,推动人工智能技术的发展和应用。

目录
相关文章
|
1月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
454 4
|
1月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
781 8
|
3月前
|
并行计算 PyTorch 调度
大模型推理显存优化系列(4):eLLM-大模型推理中的弹性显存管理和优化
本文简要介绍eLLM相关技术挑战、总体设计和初步性能评估
|
3月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
1月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
1292 38
【万字长文】大模型训练推理和性能优化算法总结和实践
|
4月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
4月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
409 1
|
4月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
1月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
327 10

热门文章

最新文章

下一篇
oss云网关配置