论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

简介: 简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每周一览热门论文版,顶会投稿选题不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的上周「多模态」方向的热门论文吧!

Unified Reward Model for Multimodal Understanding and Generation

论文链接:

https://modelscope.cn/papers/124332

简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。

核心图片:

image.png

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

论文链接:

https://modelscope.cn/papers/126628

简要介绍:提出了Generation Chain-of-Thought (GoT),这是一种将推理能力融入视觉生成和编辑的新范式。该工作将常规的文本到图像生成和编辑转变为推理引导框架,分析语义关系和空间排列。研究团队构建了包含900万样本的大规模GoT数据集,并开发了一个统一框架,整合了Qwen2.5-VL的推理能力和扩散模型的生成能力。

核心图片:

image.png

Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

论文链接:

https://modelscope.cn/papers/125186

简要介绍:该研究介绍了MMDiag,一个多轮多模态对话数据集,通过精心设计的规则和GPT辅助生成,特点是问题之间、问题与图像之间以及不同图像区域之间的强相关性。同时提出了DiagNote,一个具备多模态定位和推理能力的MLLM,包含两个相互作用的模块(Deliberate和Gaze),在多轮对话中执行思维链和注释。

核心图片:

image.png

R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

论文链接:

https://modelscope.cn/papers/124176

简要介绍:这项工作首次将可验证奖励强化学习(RLVR)应用于全模态大型语言模型用于情感识别,这是一项视觉和音频模态都起关键作用的任务。研究利用RLVR优化Omni模型,在三个关键方面显著提升其性能:推理能力、情感识别准确性和泛化能力。这种方法不仅提高了模型在分布内数据上的整体性能,还在分布外数据集评估中展示了更强的鲁棒性。

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

论文链接:

https://modelscope.cn/papers/126372

简要介绍:由清华大学、上海AI实验室等机构提出了VisualPRM,一个拥有8B参数的多模态过程奖励模型,它通过Best-of-N评估策略显著提升了现有多模态大语言模型的推理能力。该模型改进了三种类型、四种不同规模的MLLM的推理性能,即使应用于InternVL2.5-78B这样的高能力模型,也在七项多模态推理基准上获得了5.9点的提升。

核心图片:

image.png

UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

论文链接:

https://modelscope.cn/papers/125793

简要介绍:研究提出了UniF^2ace,这是第一个专为精细人脸理解和生成设计的统一多模态模型(UMM)。该模型通过两种互补的扩散技术和两级专家混合架构,在特制的数据集上进行训练。团队构建了大规模人脸数据集UniF^2ace-130K,包含13万图像-文本对和100万问答对,涵盖广泛的人脸属性,并建立了离散扩散分数匹配和掩码生成模型之间的理论联系。

核心图片:

image.png

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

论文链接:

https://modelscope.cn/papers/126311

简要介绍:这项工作提出了4D LangSplat,一种学习4D语言场的方法,以便在动态场景中处理时间敏感或时间无关的开放词汇查询。该方法绕过了从视觉特征学习语言场的传统途径,而是直接从多模态大语言模型(MLLM)生成的对象级视频描述文本中学习。研究提出了多模态对象级视频提示方法,生成详细、时间一致的高质量描述,并使用大语言模型将这些描述编码为高质量句子嵌入。

核心图片:

image.png

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

论文链接:

https://modelscope.cn/papers/124832

简要介绍:受DeepSeek-R1-Zero成功通过强化学习(RL)激发LLM推理能力的启发,该研究探索了如何利用RL提升多模态大语言模型(MLLM)的推理能力。研究者提出了Vision-R1,通过利用现有MLLM和DeepSeek-R1通过模态桥接和数据过滤构建了20万多模态思维链数据集作为冷启动初始化数据,并提出了渐进思维抑制训练(PTST)策略来减轻冷启动后过度思考的优化挑战。

核心图片:

image.png

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

论文链接:

https://modelscope.cn/papers/126288

简要介绍:研究团队提出了VisualWebInstruct,一种利用搜索引擎创建多样化高质量数据集的新方法,涵盖数学、物理、金融、化学等多个学科。从精心挑选的3万种子图像开始,通过Google图像搜索识别包含类似图像的网站,收集并处理了来自70万唯一URL源的HTML。通过内容提取、过滤和合成管道,构建了约90万问答对的数据集,其中40%为视觉QA对,其余为文本QA对。

核心图片:

image.png

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

论文链接:

https://modelscope.cn/papers/125368

简要介绍:由华中科技大学等机构提出了OmniMamba,这是首个基于线性架构的多模态生成模型,通过统一的下一个令牌预测范式同时生成文本和图像。该模型充分利用Mamba-2的高计算和内存效率,将其功能从文本生成扩展到多模态生成。为解决现有统一模型的数据效率问题,提出了两项关键创新:解耦词汇表来引导特定模态生成,以及用于参数高效适应的任务特定LoRA。

核心图片:

image.png

目录
相关文章
|
11月前
|
机器学习/深度学习 数据格式
R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见
随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。
750 12
|
11月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
595 0
|
11月前
|
人工智能 PyTorch API
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
1354 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
|
11月前
|
人工智能 自然语言处理 Java
快速带你上手通义灵码 2.0,体验飞一般的感觉
通义灵码个人版为开发者免费提供智能编码能力,专业版限免期内开放更多功能。使用需先注册阿里云账号,支持JetBrains IDEs、Visual Studio Code等开发工具。以Visual Studio Code为例,安装插件并登录后即可体验其强大功能。通义灵码2.0在代码生成、需求理解及单元测试自动化等方面有显著提升,支持多语言和复杂场景,大幅提高开发效率。
235658 39
快速带你上手通义灵码 2.0,体验飞一般的感觉
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。
4650 50
Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代
|
11月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
1447 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。
1063 18
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
|
10月前
|
机器学习/深度学习 人工智能 搜索推荐
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。
1043 16
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
|
11月前
|
文字识别 测试技术 语音技术
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
2555 6
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!