上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM本周,「机智流」和 「ModelScope」社区精选了多模态领域的论文,涵盖科学问题求解、遥感图像匹配、癌症生存预测到临床试验患者匹配等前沿应用。从多智能体框架到超维空间学习,这些研究不仅突破了技术瓶颈,还为AI的跨模态融合与实际落地提供了新思路。快来一起探索这些令人振奋的创新成果吧!✨


MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

论文链接:

https://modelscope.cn/papers/2503.16905  

简要介绍:

由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

核心图片:

image.png

 


MapGlue: Multimodal Remote Sensing Image Matching

论文链接:

https://modelscope.cn/papers/2503.16185  

简要介绍:

武汉大学团队提出了MapGlue框架及MapData数据集,针对多模态遥感图像(MRSI)匹配中的几何和辐射差异难题。MapGlue通过双图引导机制提取跨模态不变特征,在全球233个采样点的大规模数据集上实现优异匹配精度,并在未见模态上展现强大泛化性。

核心图片:

image.png

 


Disentangled and Interpretable Multimodal Attention Fusion for Cancer Survival Prediction

论文链接:

https://modelscope.cn/papers/2503.16069  

简要介绍:

乌得勒支大学和荷兰癌症研究所合作开发了DIMAF框架,通过解缠注意力机制融合全切片图像和转录组数据,提升癌症生存预测。引入距离相关性损失和SHAP解释方法,DIMAF在四个公共数据集上提升1.85%性能和23.7%解缠度,增强了生物学解释性。

核心图片:

  image.png


OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence

论文链接:

https://modelscope.cn/papers/2503.16326  

简要介绍:

北京交通大学和蒙特利尔大学团队提出了OmniGeo,一种面向地理空间AI的多模态大语言模型。OmniGeo整合卫星图像、地理元数据和文本描述,在健康地理、城市感知等五大核心任务中表现出色,首次实现GeoAI多模态统一建模。

核心图片:

image.png

 


OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

论文链接:

https://modelscope.cn/papers/2503.16081  

简要介绍:

OPPO研究院和香港科技大学(广州)提出了OThink-MR1,通过动态强化学习增强多模态语言模型的泛化推理能力。引入动态KL策略,OThink-MR1在视觉计数和几何推理任务中超越监督微调,并在跨任务迁移中展现显著优势。

核心图片:

  image.png


M3: 3D-Spatial MultiModal Memory

论文链接:

https://modelscope.cn/papers/2503.16413  

简要介绍:

加州大学圣地亚哥分校和NVIDIA联合推出了M3,一种3D空间多模态记忆系统。M3结合3D高斯 splatting和基础模型,解决特征压缩难题,并在机器人室内场景中验证其实用性,首次攻克3D特征蒸馏的核心挑战。

核心图片:

image.png

 


Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data

论文链接:

https://modelscope.cn/papers/2503.15374  

简要介绍:

该研究提出了一种无需集成、基于多模态LLM的患者-试验匹配管道,利用EHR原始文档实现自动化筛选。在n2c2数据集上达到93%准确率,真实世界数据中缩短80%审核时间,展示出广泛应用的潜力。

核心图片:

image.png

 


SemEval-2025 Task 1: AdMIRe -- Advancing Multimodal Idiomaticity Representation

论文链接:

https://modelscope.cn/papers/2503.15358  

简要介绍:

谢菲尔德大学等机构推出了AdMIRe任务,挑战多模态模型在图像排序和序列预测中理解习语表达。最佳方法结合预训练LLM和视觉-语言模型,达到人类水平性能,推动了多模态语义表征研究。

核心图片:

 

image.png


Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer

论文链接:

https://modelscope.cn/papers/2503.15352  

简要介绍:

伊利诺伊大学团队提出了一种完美多模态对齐方法,结合高斯假设实现无监督跨模态迁移。通过将语义类建模为高斯混合,实验验证了其在合成数据上的高效性,为跨模态学习开辟新方向。

核心图片:

image.png


Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU

论文链接:

https://modelscope.cn/papers/2503.15166  

简要介绍:

奥尔堡大学等机构研究了超维与欧几里得空间中的机器遗忘,提出HAC方法适配MERU模型。实验显示超维几何在概念移除中具有优势,揭示了几何结构对多模态表征遗忘动态的影响。

核心图片:

image.png

-- 完 --

欢迎在「机智流」公众号后台回复「cc」,加入机智流大模型交流群,与我们一起探索 AI 与人类潜能的未来,一起共赴 AI 浪潮!

目录
相关文章
|
7月前
|
存储 人工智能 文字识别
pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文
pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。
1271 10
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
536 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
3101 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
7月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3530 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
7月前
|
人工智能 自然语言处理 搜索推荐
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。
387 8
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
|
7月前
|
前端开发 测试技术 API
DeepSeek-V3小版本升级,非推理模型王者归来
今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。
273 5
|
7月前
|
XML 人工智能 数据可视化
ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看
ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。
352 0
|
7月前
|
机器学习/深度学习 人工智能 测试技术
魔搭社区模型速递(3.16-3.22)
魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容
237 1
|
7月前
|
人工智能 自然语言处理 API
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
521 11
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
|
机器学习/深度学习 人工智能 分布式计算
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
本次教程介绍了如何使用 PAI ×LLaMA Factory 框架,基于全参方法微调 Qwen2-VL 模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人

热门文章

最新文章