小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「国产模型逆袭!小米7B小钢炮干翻32B巨无霸,技术白皮书揭秘三阶段训练法」

大家好,我是蚝油菜花。当科技大厂还在比拼参数规模时,小米用这个开源模型证明了——小身材也能爆发大智慧!你是否遇到过这些AI推理困境:

  • ∑ 数学题分步解析总在关键步骤「跳步」
  • 💻 生成的代码看似能用,实际藏了三个语法坑
  • ⏱️ 等大模型推理结果时,咖啡都喝完了两杯...

今天解剖的 Xiaomi MiMo ,正在重写推理模型的效率规则!这个7B参数的「逻辑刺客」:

  • 数学推理开挂:在GSM8K测评中碾压部分32B模型
  • 代码生成防坑:自动规避常见语法陷阱,可用率提升63%
  • 训练效率革命:独创三阶段训练法,用25T tokens练就「最强大脑」

已有教育机构用它开发AI解题助手,文末附《7B模型调优指南》——你的推理任务,准备好迎接「小米效率」了吗?

🚀 快速阅读

小米开源的首个推理大模型MiMo突破参数规模限制。

  1. 能力:7B参数实现数学推理与代码生成双重突破
  2. 技术:采用三阶段预训练+强化学习优化框架

Xiaomi MiMo 是什么

Xiaomi MiMo

Xiaomi MiMo 是小米推出的开源推理大模型,通过创新的训练框架在7B参数规模下实现超越更大模型的推理性能。其核心突破在于联动预训练与后训练阶段,专门针对复杂推理任务进行优化。

该模型包含4个版本:基础预训练模型、监督微调模型及两个强化学习版本,均已开源。技术报告显示,MiMo在数学推理和代码生成任务中显著优于部分32B参数规模的竞品模型。

Xiaomi MiMo 的主要功能

  • 数学推理突破:解决多步骤数学问题并提供完整推导过程
  • 智能代码生成:输出可直接运行的代码,支持多种编程语言
  • 高效推理架构:7B参数实现超越部分32B模型的性能表现

Xiaomi MiMo 的技术原理

  • 三阶段预训练:逐步提升训练难度,累计25T tokens训练量
  • 强化学习优化:Test Difficulty Driven Reward算法解决奖励稀疏问题
  • 训练加速系统:Seamless Rollout框架使RL训练提速2.29倍
  • 数据策略创新:Easy Data Re-Sampling稳定强化学习过程

如何运行 MiMo-7B

vLLM 推理

1. 推荐使用我们分叉的 vLLM

我们官方支持使用 MiMo-MTP 进行推理,使用 我们分叉的 vLLM

示例脚本:

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
   
        "role": "system",
        "content": ""
    },
    {
   
        "role": "user",
        "content": "写一篇关于高等教育重要性的文章。",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"提示: {prompt!r}, 生成的文本: {generated_text!r}")

print("=" * 80)

2. 或者,你可以注册一个不加载 MTP 参数的 vLLM 加载器

你可以将 registry/register_mimo_in_vllm.py 复制到你的目录中,并通过以下方式导入:

import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

HuggingFace 推理

示例脚本:

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_path = "/path/to/MiMo"
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_path)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(output.tolist()[0]))

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
7天前
|
人工智能 监控 API
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
|
3天前
|
自然语言处理 IDE 开发工具
通义灵码新增 Inline Chat 能力,代码行内随时问答,沉浸式编码,心流不断
通义灵码行间会话(Inline Chat)支持开发者在代码编辑器区域进行对话,开发者可以通过自然语言对话的方式进行单个文件内的代码修改或进行即时提问。
38 0
|
1天前
|
人工智能 自然语言处理 语音技术
全模态通义千问Qwen2.5-Omni大模型开源,7B尺寸实现全球最强性能
Qwen2.5-Omni采用“Thinker-Talker”双核架构,Thinker负责多模态输入处理,Talker实现流式语音合成,二者无缝协作。该模型在多模态任务OmniBench中达到SOTA表现,并在多个单模态领域超越同类模型。作为通义系列首个端到端全模态大模型,Qwen2.5-Omni支持文本、图像、音频和视频等多种输入输出形式,具备情绪识别与自然反馈能力。现已开源,开发者可通过多个平台免费体验和下载。
|
1天前
|
人工智能 编解码 搜索推荐
通义万相新模型开源,首尾帧图一键生成特效视频!
通义万相首尾帧生视频14B模型正式开源,作为首个百亿级参数规模的开源模型,可依据用户提供的开始与结束图片生成720p高清衔接视频,满足延时摄影、变身等定制化需求。用户上传两张图片或输入提示词即可完成复杂视频生成任务,支持运镜控制和特效变化。该模型基于Wan2.1架构改进,训练数据专门构建,确保高分辨率和流畅性。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问推理模型QwQ-32B开源,更小尺寸、更强性能
阿里云发布并开源全新推理模型通义千问QwQ-32B,通过大规模强化学习,在数学、代码及通用能力上实现质的飞跃,性能比肩DeepSeek-R1。该模型大幅降低部署成本,支持消费级显卡本地部署,并集成智能体Agent相关能力。阿里云采用Apache2.0协议全球开源,用户可通过通义APP免费体验。此外,通义团队已开源200多款模型,覆盖全模态和全尺寸。
|
4天前
|
传感器 人工智能 自然语言处理
通义灵码新增Inline Chat能力,代码问题即时提问
本次更新,通义灵码上线行间会话(Inline Chat)能力,支持开发者在代码编辑器区域进行对话,开发者可以通过自然语言对话的方式进行单个文件内的代码修改或进行即时提问。
|
7天前
|
数据采集 人工智能 自然语言处理
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
62 4
|
8天前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
284 68
|
9天前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
105 17
|
23天前
|
人工智能 自然语言处理 搜索推荐
AI 搜索开放平台重磅发布:Qwen3 模型上线啦
阿里云AI搜索开放平台重磅发布最新Qwen3模型,为企业和开发者提供全栈智能搜索解决方案。Qwen3作为最新一代大模型,在推理、多语言支持和Agent能力上表现卓越。用户可通过三步快速体验Qwen3服务,助力业务在AI时代抢占先机。
190 12

热门文章

最新文章