Kimi-K2-Instruct 开了挂一般的推理和调用,底层魔法是什么?
Mixture-of-Experts(MoE)架构
Kimi-K2 是一个混合专家模型(Mixture-of-Experts, MoE),总参数量高达 1 万亿,每次推理激活的专家参数量约为 320 亿,有效降低推理时的计算负担,同时提升模型容量和表达能力。Hugging FaceGitHubarXiv
每个 token 在处理时调度若干专家(如每 token 8 个专家),从而在不同子网络间动态选择最合适的专家组合。Hugging FaceGitHub
MuonClip 优化器
使用了 Muon 优化器的变体 —— MuonClip,特别针对 MoE 在大规模训练时容易出现的不稳定(如 loss spike)做了改进。加入了 QK-clip 技术,使得训练过程更加平稳。arXiv
Kimi-K2 使用 MuonClip 在超过 15.5 万亿 tokens 上进行预训练,几乎无训练失稳情况。arXivHugging Face
Agentic Intelligence:Post-training + RL + Tool-use 优化
模型设计时注重 Agentic(代理式)能力,在 post-training 阶段加入了大量的代理式数据合成流程,以及一个联合的强化学习阶段(RL stage),通过与真实或模拟环境的交互不断强化其“自行动作推理”能力。arXiv
这种训练让模型在面对复杂指令、工具调用、任务分解时能自律决策,有非常强的自动决策能力。arXivGitHubTogether AI
Reflex-grade(“反射级”)模型 + 原生工具调用能力
“Reflex-grade” 通常指模型能快速反应、即时推理,不需要多步“Chain-of-Thought”(CoT)的冗长处理,就能给出响应。Kimi-K2-Instruct 正是这样一个 reflex-grade 模型。Hugging FaceGitHubReddit
在 API 层面,Kimi-K2-Instruct 拥有“native tool use”设计,允许把工具 Schema(JSON)直接传给模型,它即可自主选择何时调用、调用哪个工具—不依赖外部指令插入。Together AIGitHub
赞21
踩0