今天,Minimax正式发布并开源 MiniMax-M2,一款专为Max级编码与智能体打造的模型。
MiniMax-M2 是一款轻量、快速且极具成本效益的 MoE 模型(230B 总参数,10B 激活参数)。它在保持强大通用智能的同时,专为编码和智能体任务进行了深度优化。凭借仅 10B 的激活参数,它提供了开发者期待的端到端工具使用性能,同时其小巧的“身材”也更易于部署和扩展。
01核心亮点
卓越智能
根据 Artificial Analysis 的评测结果,MiniMax-M2 在数学、科学、指令跟随、编码和智能体工具使用方面,展现了极具竞争力的通用智能,综合分数在全球开源模型中排名第一。
精通编码
MiniMax-M2具备强大的端到端开发能力,包括多代码文件处理、执行“编码-运行-调试”的完整循环,以及通过测试验证来自动修复代码。它在 Terminal-Bench 和 (Multi-)SWE-Bench 等基准测试中取得了出色的表现,并且在实际生产环境中,展现出很强的实用价值。
强大的Agentic能力
MiniMax-M2能够出色地规划并执行复杂的工具链,协同调用 Shell、浏览器、Python代码执行器和各种MCP工具。在 BrowseComp 评测中,它不仅可以挖掘到难以查找的信息源,还能保持信息来源的可追溯性,并具备自我纠错与恢复的能力。
高效设计
这款仅有10B激活参数(总参230B)的轻量级模型,在保持卓越性能的同时,实现了更低的延迟与成本,以及更高的吞吐效率,完美契合了新兴多智能体工作流对高效协同与快速响应的需求。它的出现顺应了模型发展的新趋势,即业界正积极转向那些“易于部署,且在编码和智能体任务上表现卓越”的解决方案。
02基准测试概览
MiniMax-M2 在一系列强调端到端编码和智能体工具使用的基准测试中表现优异。这些任务(如 SWE-bench, Terminal-Bench, BrowseComp, HLE (w/ tools), FinSearchComp-global 等)的性能与开发者在终端、IDE 和 CI 中的日常体验高度相关。
评测说明:带*的指标为直接援引自官方指标,其他指标通过以下方法测试得到:
- SWE-bench Verified: 在 OpenHands 基础上,使用了与 R2E-Gym (Jain et al. 2025) 相同的测试框架评估智能体在软件工程(SWE)任务上的表现。所有得分均在我们的内部设施上验证,配置为 128k 上下文长度、100 步最大限制,且未使用测试时扩展(test-time scaling)。所有 git 相关内容均被移除,以确保智能体仅能看到问题发生点的代码。
- Multi-SWE-Bench & SWE-bench Multilingual: 所有得分均使用 claude-code 命令行工具(最大步数 300 步)作为测试框架,测试 8 次取平均值。
- Terminal-Bench: 所有得分均使用 Terminal-Bench 原始仓库(commit 94bf692)中的官方claude-code版本进行评估,测试 8 次取平均值。
- ArtifactsBench: 所有分数均使用ArtifactsBench的官方实现计算,并采用Gemini-2.5-Pro作为评判模型,最终结果为 3 次运行的平均值。
- BrowseComp & BrowseComp-zh & GAIA (text only) & xbench-DeepSearch: 所有得分均使用了与 WebExplorer (Liu et al. 2025) 相同的智能体框架,仅对工具描述进行了微调。我们使用与WebExplorer (Liu et al. 2025) 相同的103个样本的GAIA纯文本验证子集。
- HLE (w/ tools): 所有得分均通过使用搜索工具和 Python 工具获得。其中,搜索工具采用了与 WebExplorer (Liu et al. 2025) 相同的智能体框架,而 Python 工具则在 Jupyter 环境中运行。我们使用HLE的纯文本子集。
- τ²-Bench: 所有得分均采用了“带工具使用的扩展思维”(extended thinking with tool use)模式,并使用 GPT-4.1 作为用户模拟器。
- FinSearchComp-global: GPT-5-Thinking、Gemini 2.5 Pro 和 Kimi-K2 报告的是官方结果。其他模型的评估则使用了开源的 FinSearchComp (Hu et al. 2025) 框架,配备搜索和 Python 工具,所有工具均同时启动以确保一致性。
- AgentCompany: 报告的所有得分均使用 OpenHands 0.42 智能体框架。
在 Artificial Analysis (AA) 综合智能基准测试中,MiniMax-M2表现卓越,总分位列全球开源模型榜首。该评测体系全面覆盖了模型在数学、科学与编码等多个核心领域的能力。
以上得分均直接引用Artificial Analysis官方评测结果 ( https:// artificialanalysis.ai/)
03 10B激活:智能体时代的理想之选
将激活参数规模保持在10B,能够极大提升智能体工作流中 “规划 → 行动 → 验证” 这一核心链路的运转效率。
这意味着:
✅ 更快的反馈循环: 在“编辑-运行-测试”或“检索-浏览-引用”等任务流中,获得更敏捷的响应;
✅ 更高的成本效益: 同等预算下,可支持更多并发任务(如回归测试、多路径探索等),每一分投入都物超所值;
✅ 更从容的资源规划: 单次请求的内存占用更小,且延迟表现更加稳定,能有效避免高峰期的性能瓶颈,让容量规划更轻松。
04模型使用
基于MiniMax-M2的通用Agent产品MiniMax Agent现已全面开放使用,并限时免费:https://agent.minimaxi.com/
MiniMax-M2 API已在MiniMax开放平台开放使用,并限时免费:https://platform.minimaxi.com/docs/guides/text-generation
MiniMax-M2模型权重已开源,可以本地部署使用:https://modelscope.cn/models/MiniMax/MiniMax-M2
05模型推理
ms-swift
你也可以使用ms-swift对MiniMax-M2进行推理交互体验,首先你需要安装ms-swift和vLLM:
uv pip install 'triton-kernels @ git+https://github.com/triton-lang/triton.git@v3.5.0#subdirectory=python/triton_kernels' vllm --extra-index-url https://wheels.vllm.ai/nightly --prerelease=allow pip install git+https://github.com/modelscope/ms-swift.git
推理命令如下:
CUDA_VISIBLE_DEVICES=0,1,2,3 \ swift infer \ --model MiniMax/MiniMax-M2 \ --vllm_max_model_len 8192 \ --vllm_enable_expert_parallel \ --vllm_tensor_parallel_size 4 \ --infer_backend vllm
推理参数
推荐使用以下推理参数以获得最好的性能:temperature=1.0, top_p = 0.95,top_k = 40
06总结
如果您希望兼得旗舰级的编码与智能体能力,同时避免高昂的成本与复杂的部署流程,那么 MiniMax-M2 将是实现最佳性能-成本平衡的理想选择。它以轻量化的参数规模,展现出强大的端到端工具调用能力与流畅的运行速度,并具备极高的部署灵活性。
想要了解更多,请点击跳转模型链接~