MiniMax-M2 发布!10B激活,专为高效编码与Agent工作流而生

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: MiniMax发布并开源轻量级MoE模型MiniMax-M2(230B总参,10B激活),专为编码与智能体任务优化。兼具卓越通用智能与高效推理能力,在多项基准测试中表现领先,支持本地部署与API调用,助力开发者实现高性能、低成本的端到端智能应用。

今天,Minimax正式发布并开源 MiniMax-M2,一款专为Max级编码与智能体打造的模型。

MiniMax-M2 是一款轻量、快速且极具成本效益的 MoE 模型(230B 总参数,10B 激活参数)。它在保持强大通用智能的同时,专为编码和智能体任务进行了深度优化。凭借仅 10B 的激活参数,它提供了开发者期待的端到端工具使用性能,同时其小巧的“身材”也更易于部署和扩展。

01核心亮点

卓越智能

根据 Artificial Analysis 的评测结果,MiniMax-M2 在数学、科学、指令跟随、编码和智能体工具使用方面,展现了极具竞争力的通用智能,综合分数在全球开源模型中排名第一。


精通编码

MiniMax-M2具备强大的端到端开发能力,包括多代码文件处理、执行“编码-运行-调试”的完整循环,以及通过测试验证来自动修复代码。它在 Terminal-Bench 和 (Multi-)SWE-Bench 等基准测试中取得了出色的表现,并且在实际生产环境中,展现出很强的实用价值。


强大的Agentic能力

MiniMax-M2能够出色地规划并执行复杂的工具链,协同调用 Shell、浏览器、Python代码执行器和各种MCP工具。在 BrowseComp 评测中,它不仅可以挖掘到难以查找的信息源,还能保持信息来源的可追溯性,并具备自我纠错与恢复的能力。


高效设计

这款仅有10B激活参数(总参230B)的轻量级模型,在保持卓越性能的同时,实现了更低的延迟与成本,以及更高的吞吐效率,完美契合了新兴多智能体工作流对高效协同与快速响应的需求。它的出现顺应了模型发展的新趋势,即业界正积极转向那些“易于部署,且在编码和智能体任务上表现卓越”的解决方案。

02基准测试概览

MiniMax-M2 在一系列强调端到端编码和智能体工具使用的基准测试中表现优异。这些任务(如 SWE-bench, Terminal-Bench, BrowseComp, HLE (w/ tools), FinSearchComp-global 等)的性能与开发者在终端、IDE 和 CI 中的日常体验高度相关。

评测说明:带*的指标为直接援引自官方指标,其他指标通过以下方法测试得到:

  • SWE-bench Verified:  在 OpenHands 基础上,使用了与 R2E-Gym (Jain et al. 2025) 相同的测试框架评估智能体在软件工程(SWE)任务上的表现。所有得分均在我们的内部设施上验证,配置为 128k 上下文长度、100 步最大限制,且未使用测试时扩展(test-time scaling)。所有 git 相关内容均被移除,以确保智能体仅能看到问题发生点的代码。
  • Multi-SWE-Bench & SWE-bench Multilingual: 所有得分均使用 claude-code 命令行工具(最大步数 300 步)作为测试框架,测试 8 次取平均值。
  • Terminal-Bench: 所有得分均使用 Terminal-Bench 原始仓库(commit 94bf692)中的官方claude-code版本进行评估,测试 8 次取平均值。
  • ArtifactsBench: 所有分数均使用ArtifactsBench的官方实现计算,并采用Gemini-2.5-Pro作为评判模型,最终结果为 3 次运行的平均值。
  • BrowseComp & BrowseComp-zh & GAIA (text only) & xbench-DeepSearch: 所有得分均使用了与 WebExplorer (Liu et al. 2025) 相同的智能体框架,仅对工具描述进行了微调。我们使用与WebExplorer (Liu et al. 2025) 相同的103个样本的GAIA纯文本验证子集。
  • HLE (w/ tools): 所有得分均通过使用搜索工具和 Python 工具获得。其中,搜索工具采用了与 WebExplorer (Liu et al. 2025) 相同的智能体框架,而 Python 工具则在 Jupyter 环境中运行。我们使用HLE的纯文本子集。
  • τ²-Bench: 所有得分均采用了“带工具使用的扩展思维”(extended thinking with tool use)模式,并使用 GPT-4.1 作为用户模拟器。
  • FinSearchComp-global: GPT-5-Thinking、Gemini 2.5 Pro 和 Kimi-K2 报告的是官方结果。其他模型的评估则使用了开源的 FinSearchComp (Hu et al. 2025) 框架,配备搜索和 Python 工具,所有工具均同时启动以确保一致性。
  • AgentCompany: 报告的所有得分均使用 OpenHands 0.42 智能体框架。


在 Artificial Analysis (AA) 综合智能基准测试中,MiniMax-M2表现卓越,总分位列全球开源模型榜首。该评测体系全面覆盖了模型在数学、科学与编码等多个核心领域的能力。

以上得分均直接引用Artificial Analysis官方评测结果 ( https:// artificialanalysis.ai/)


03 10B激活:智能体时代的理想之选

将激活参数规模保持在10B,能够极大提升智能体工作流中 “规划 → 行动 → 验证” 这一核心链路的运转效率。

这意味着:

更快的反馈循环: 在“编辑-运行-测试”或“检索-浏览-引用”等任务流中,获得更敏捷的响应;

更高的成本效益: 同等预算下,可支持更多并发任务(如回归测试、多路径探索等),每一分投入都物超所值;

更从容的资源规划: 单次请求的内存占用更小,且延迟表现更加稳定,能有效避免高峰期的性能瓶颈,让容量规划更轻松。

04模型使用

基于MiniMax-M2的通用Agent产品MiniMax Agent现已全面开放使用,并限时免费https://agent.minimaxi.com/

MiniMax-M2 API已在MiniMax开放平台开放使用,并限时免费:https://platform.minimaxi.com/docs/guides/text-generation

MiniMax-M2模型权重已开源,可以本地部署使用:https://modelscope.cn/models/MiniMax/MiniMax-M2


05模型推理

ms-swift


你也可以使用ms-swift对MiniMax-M2进行推理交互体验,首先你需要安装ms-swift和vLLM:

uv pip install 'triton-kernels @ git+https://github.com/triton-lang/triton.git@v3.5.0#subdirectory=python/triton_kernels'  vllm --extra-index-url https://wheels.vllm.ai/nightly --prerelease=allow
pip install git+https://github.com/modelscope/ms-swift.git

推理命令如下:

CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift infer \
    --model MiniMax/MiniMax-M2 \
    --vllm_max_model_len 8192 \
    --vllm_enable_expert_parallel \
    --vllm_tensor_parallel_size 4 \
    --infer_backend vllm


推理参数

推荐使用以下推理参数以获得最好的性能:temperature=1.0, top_p = 0.95,top_k = 40


06总结

如果您希望兼得旗舰级的编码与智能体能力,同时避免高昂的成本与复杂的部署流程,那么 MiniMax-M2 将是实现最佳性能-成本平衡的理想选择。它以轻量化的参数规模,展现出强大的端到端工具调用能力与流畅的运行速度,并具备极高的部署灵活性。


想要了解更多,请点击跳转模型链接~

https://modelscope.cn/models/MiniMax/MiniMax-M2

目录
相关文章
|
25天前
|
人工智能 程序员 开发者
「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者
10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
222 0
|
25天前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
627 6
仅100多元,他给视障人群装上AI“眼睛”
|
25天前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
237 1
|
29天前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
1635 11
|
2月前
|
人工智能 安全 架构师
告别旅行规划的"需求文档地狱"!这个AI提示词库,让你像调API一样定制完美旅程
作为开发者,旅行规划如同“需求地狱”:信息碎片、需求多变、缺乏测试。本文提出一套“企业级”AI提示词库,将模糊需求转化为结构化“API请求”,实现标准化输入输出,让AI成为你的专属旅行架构师,30分钟生成专业定制方案,提升决策质量,降低90%时间成本。
473 129
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式
通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
380 1
|
18天前
|
人工智能 自然语言处理 语音技术
Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!
Soul AI Lab联合西工大、上交大开源SoulX-Podcast,支持中英粤川等多语种方言及副语言生成,可稳定输出超60分钟自然流畅的多人对话音频,已在Huggingface登顶TTS趋势榜。
293 0
Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast,已登顶Hugging Face TTS趋势榜!
|
2月前
|
缓存 自然语言处理 并行计算
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
276 2

热门文章

最新文章