MM-Eureka:多模态推理新纪元!54K训练量吊打百万级模型,K12数学能力暴增8.2%

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: MM-Eureka 是由上海人工智能实验室、上海创智学院、上海交通大学和香港大学联合开发的多模态推理模型,通过基于规则的强化学习,显著提升了多模态推理能力,尤其在数据效率和推理准确性方面表现突出。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🧠 「学术界炸锅!这个AI用小学生作业量,解开了清华博士都头疼的难题」

大家好,我是蚝油菜花。你是否也经历过这些科研至暗时刻:

  • 👉 训个多模态模型要百万级数据,实验室GPU烧到冒烟
  • 👉 模型看见「鸡兔同笼」数学题,给出的答案是烤鸡腿火候指南
  • 👉 让AI分析心电图+病历,它却给你生成重金属摇滚歌单...

今天要揭秘的 MM-Eureka ,堪称AI界的"顿悟大师"!这个由上海AI实验室领衔打造的推理怪兽,仅用54K图文数据就完成了三大逆天操作:

  • 用8K数学题训练,K12测试直接碾压传统模型8.2%
  • 看图说话精度暴涨,1%数据量吊打百万级训练对手
  • 自带反思技能,会主动回溯图像细节找解题线索

更疯狂的是,它居然复现了人类才有的"啊哈时刻"——当识别到心电图异常波形时,会像资深医生一样反复比对病史数据!

🚀 快速阅读

MM-Eureka 是一款基于规则的大规模强化学习多模态推理模型。

  1. 核心功能:将文本推理中的关键特性(如准确率奖励和反思行为)扩展到多模态领域,显著提升推理能力。
  2. 技术原理:基于 OpenRLHF 开发的多模态强化学习框架,支持高效训练和数据过滤策略,确保模型在多模态环境中的稳定性和性能。

MM-Eureka 是什么

MM-EUREKA-cover

MM-Eureka 是由上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员共同开发的多模态推理模型。该模型通过基于规则的大规模强化学习(RL),将单模态推理中的关键特性(如稳定的回答长度增长、准确率奖励以及视觉顿悟时刻)扩展到多模态场景。

MM-Eureka 推出了两个核心模型:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分别基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。仅使用 54K 图文数据进行规则型强化学习训练,平均性能便超过了使用 1M 数据的 MPO 模型。MM-Eureka-Zero-38B 仅使用 8K 图文数学推理数据,在自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。

MM-Eureka 的主要功能

MM-EUREKA-visual_aha_moment

  • 多模态推理能力:将大规模基于规则的强化学习(RL)扩展到多模态推理领域,能处理文本和视觉信息。
  • 复现关键特性:在多模态空间中复现了文本 RL 系统(如 DeepSeek-R1)的关键特性,包括准确率奖励和响应长度的稳步提升,以及反思行为的涌现。
  • 数据高效性:仅使用 54K 图文数据进行规则型 RL 训练,平均性能超过了使用 1M 数据的 MPO 模型,整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当。

MM-Eureka 的技术原理

  • 基于规则的大规模强化学习框架:MM-Eureka 基于 OpenRLHF 开发了高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。使模型能在多模态环境中进行有效的训练,成功复现了 DeepSeek-R1 的关键特性,如准确率奖励和响应长度的稳步提升。
  • 数据过滤与稳定训练:研究团队发现,数据选择对于稳定 RL 训练至关重要。基于难度的数据过滤策略对 RL 训练的稳定性起到了关键作用。
  • 视觉顿悟时刻(Visual aha-moment):MM-Eureka 在训练过程中展现出类似 DeepSeek-R1 的视觉顿悟时刻。具体表现为模型学会反思和回溯,会重新审视图像中的关键信息。
  • 极简的强化学习设计:极简的 RL 设计在 MM-Eureka 中被证明是有效的。在 instruct 模型上实验时,添加 KL 散度会限制模型探索,导致无法观测到响应长度的提高。 MM-Eureka 采用简单的奖励函数(如准确性奖励和格式奖励),通过难度基础的数据过滤策略进行稳定训练。
  • 高效的数据利用:MM-Eureka 展现出极高的数据效率。仅使用 54K 图文数据进行规则型强化学习训练,平均性能就超过了使用 1M 数据的 MPO 模型。MM-Eureka-Zero 仅使用 8K 图文数学推理数据(指令模型的 0.05%),在自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。表明在多模态推理领域,简单的规则型强化学习设计可以显著提升训练效果,在数据量较少的情况下也能达到与大规模训练相当的性能。

如何运行 MM-Eureka

📦 安装

git clone https://github.com/ModalMinds/MM-EUREKA.git
cd MM-EUREKA
pip install -e .[vllm]

# 安装 flash-attn==2.3.6:
pip install flash-attn==2.3.6 --no-build-isolation

# 或者从源码编译:
git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention
git checkout v2.3.6
python setup.py install

📂 数据准备

你可以从MM-Eureka-Dataset下载训练数据。下载完成后,参考以下部分进行数据格式化。你可能需要更新image_urls字段以引用本地图像路径。

自定义数据集

对于自定义数据集,将数据格式化为 JSONL 文件,每个条目是一个字典,格式如下:

{
   
  "id": "0",
  "conversations": [
      {
   
          "role": "system",
          "content": "system_prompt"
      },
      {
   
          "role": "user",
          "content": "user_prompt"
      }
  ],
  "answer": "gt that could be parsed and verified by math_verify",
  "image_urls": ["file:///path/to/image1", "file:///path/to/image2"]
}

🌐 开始训练

在开始训练之前,确保提供的训练脚本中的路径已正确设置,并且环境变量如 $MASTER_ADDR$NODE_RANK 已正确配置。

启动 MM-Eureka-8B 训练

  • 单节点训练:
    sh examples/scripts/train_mm_eureka_8b_single_node.sh
    
  • 多节点训练:
    sh examples/scripts/train_mm_eureka_8b_multi_node.sh
    

启动 MM-Eureka-Zero-38B 训练

sh examples/scripts/train_mm_eureka_zero_38b_multi_node.sh

📊 评估

这里提供了评估代码,位于 eval/ 目录中。要自定义不同模型的评估过程,请使用 --prompt_template 参数指定适当的提示格式。

这里还引入了 K12 数学数据集,这是一个包含 500 道填空题的数据集,涵盖初中到高中的数学概念。数据集位于 eval/k12 目录中。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
32B模型性能直逼671B的DeepSeek-R1!Skywork-OR1:昆仑万维开源推理模型,突破数学与代码双极限
Skywork-OR1系列模型通过强化学习框架与多阶段训练策略,在数学推理与代码生成领域实现突破性进展,其7B参数版本在AIME数学数据集上超越同规模模型,32B版本性能接近671B参数竞品。
129 10
32B模型性能直逼671B的DeepSeek-R1!Skywork-OR1:昆仑万维开源推理模型,突破数学与代码双极限
|
1月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术,在保持高性能的同时大幅降低计算资源需求,7B模型性能甚至可媲美32B大模型。
148 11
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
|
5月前
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
1月前
|
人工智能 自然语言处理 算法
MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%
MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。
138 18
|
4月前
|
人工智能 自然语言处理
DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力
DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架,通过自适应选择不同条件,显著增强了图像生成的可控性。
105 11
DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力
|
2月前
|
存储 人工智能 文字识别
MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出
MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。
105 0
|
11月前
|
人工智能 自动驾驶 算法
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理
云天励飞,中国AI独角兽,发布“AI模盒”,以千元成本实现多模态大模型的秒级训练推理,降低AI应用门槛。该产品凸显了公司在技术创新与普及中的努力,旨在构建智能城市并重塑日常生活,同时也面临数据安全、隐私保护及人才挑战。
144 3
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理
|
11月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
97 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
存储 机器学习/深度学习 人工智能
热点解读:大模型的突现能力和ChatGPT引爆的范式转变(1)
热点解读:大模型的突现能力和ChatGPT引爆的范式转变
165 0
热点解读:大模型的突现能力和ChatGPT引爆的范式转变(1)
|
达摩院 自然语言处理 测试技术
开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍
近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。 目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。
851 0

热门文章

最新文章

下一篇
oss创建bucket