Kimi K2 开源发布:擅长代码与 Agentic 任务!

简介: 今天,月之暗面正式发布 Kimi K2 模型,并同步开源。Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。

 

今天,月之暗面正式发布 Kimi K2 模型,并同步开源。

Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。

在 SWE Bench Verified、Tau2、AceBench 等基准性能测试中,Kimi K2 均取得开源模型中的 SOTA 成绩,展现出在代码、Agent、数学推理任务上的领先能力。

Kimi K2 的预训练阶段使用 MuonClip 优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率,找到新的 Scaling 空间。

其他关键技术包括大规模 Agentic Tool Use 数据合成和引入自我评价机制的通用强化学习等,更多细节,可参考官方技术博客。

即日起,访问官网 kimi.com 或下载 Kimi App,即可体验全新 Kimi K2 模型;API 服务也已同步上线,提供兼容 OpenAI 和 Anthropic 的 Chat API 接口,你可以轻松将常用的大模型工具切换至 Kimi K2,体验强大的 Agent/Coding 能力。

Kimi K2 是构建通用 Agent 能力的坚实基础,但通用 Agent 还需要更高级的能力,比如思考和视觉理解,研究团队计划未来为 Kimi K2 加入这些能力。

Kimi希望通过全面开源性能更强的模型,进一步加速 AGI 研究与应用落地的整体进程。

 

模型:

  • Kimi-K2-Base:

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Base

  • Kimi-K2-Instruct:

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Instruct

 

技术报告:

https://moonshotai.github.io/Kimi-K2/

 

模型体验:

https://www.kimi.com/

📈 模型性能提升

Kimi K2 在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)三大能力维度的基准性能测试中取得优秀表现。

 

image.gif 编辑

除了基准性能测试,Kimi K2 在多个实际场景中也展现出更强的能力泛化和实用性:

代码能力提升

在前端开发任务中,Kimi K2 擅长生成兼具设计感与视觉表现力的代码,支持粒子系统、可视化和 3D 场景等表现形式,具备较强的图形能力与交互性。

以下是用 Kimi K2 生成的山川峡谷 3D 景观,支持昼夜循环:

Prompt: Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines... (创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示...)

 

这是 Kimi K2 生成的粒子特效银河:

Prompt: Create a 3D particle galaxy with swirling nebulas, dynamic lighting. (创建一个 3D 粒子银河,包含旋转的星云和动态光照效果。)

 

这是 Kimi K2 One-shot 生成的期货交易系统,Kimi 在无具体指令下,自动选用 TradingView,搭建了完整的期货交易界面:

Prompt: Create a HTML!! an immersive browser-based futures trading simulator with professional-grade UI/UX using modern JavaScript libraries. Focus on real-time visualizations and interactive trading mechanics.(创建一个基于 HTML 的沉浸式浏览器期货交易模拟器,使用现代 JavaScript 库,具备专业级 UI/UX 设计。重点实现实时可视化和交互式交易机制。)

Agent 工具调用能力提升

Kimi K2 现已具备稳定的复杂指令解析能力,可将需求自动拆解为一系列格式规范、可直接执行的 ToolCall 结构。

你可以将其无缝接入 owl、Cline、RooCode 等 Agent/Coding 框架,完成复杂任务或自动化编码。

Agent 能力已可通过 API 使用,更多工具能力即将在 Kimi 上线。先来看看内部测试环境中的实际演示,体验一下拥有强大 Agentic 能力的模型的魅力:

比如,将 13 万行的原始数据丢给 Kimi K2,他可以帮你分析远程办公比例对薪资的影响,分析显著差异,自动生成统计图表与回归模型解读,并用统一色调做出小提琴图(violin plot) 、箱线图(box plot)、散点图(scatter plot)等专业图表,整理成报告。

 

再比如,如果你是 Coldplay 粉丝,Kimi K2 可以帮你制定今年的追星计划,完成演唱会所在城市的机酒与旅游规划,并且生成日历,再用 html 概括完整行程规划并给你发送邮件。

 

风格化写作能力提升

在改写任务中,Kimi K2 能准确控制输出风格,无论是用初中生语气改写科研文本,还是模仿苹果广告文案,都能同时保留原意与表达风格,体现较强的语境保持和表达迁移能力。

 

image.gif 编辑

在虚构写作任务中,Kimi K2 生成的文字更关注细节与情感,不再是抽象泛泛而谈。

当给到 Kimi K2 一个曾经引发热议的科幻写作挑战:“如果现实世界其实是一个AI模型,会发生什么?”

Kimi K2 生成了一个情节丰富、充满细节描写的科幻小说,其中一些片段令人感动:

科学家说:“有些科学家认为你们只是数据,没有真正的生命权。但另一些人,包括我,认为你们已经进化成了新的生命形式。”

数字生命说:“我们有权决定自己的命运,即使这个命运是虚拟的。”

 

以下是 Kimi K2 基于该设定生成的作品全文:

 

image.gif 编辑

 

此外,Kimi K2 在通用知识推理、数学、规划等任务中的表现亦有提升。

🌍 上线即开源

官方同步开源了 Kimi K2 系列中的两个模型版本,模型及 fp8 权重文件已开源至 ModelScope:

  • Kimi-K2-Base:未经过指令微调的基础预训练模型,适合科研与自定义场景

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Base

  • Kimi-K2-Instruct:通用指令微调版本(非思考模型),在大多数问答与 Agent 任务中表现卓越。

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Instruct

 

此外,vLLM、SGLang、ktransformers 等推理引擎也已经同步支持,可以用自己的服务器部署获得 Kimi 开放平台 API 相同的体验。

🧙 技术探索

Kimi K2 用 MuonClip 优化器稳健支撑万亿参数模型训练,显著提升 token 利用效率。 结合大规模 Agentic 数据合成与通用强化学习,模型在通用智能能力上持续进展。

  • MuonClip 优化器:Kimi K2抛弃了传统的Adam优化器,创新性地使用了Muon优化器。为了缓解大规模训练中的attention logits偏大问题,研究团队提出 MuonClip,并将其扩展到万亿参数规模,提升了训练稳定性和 token 使用效率。Kimi K2 完成了 15.5T token 的平稳训练,全程无 loss spike。
  • 大规模 Agentic Tool Use 数据合成:研究团队构建了可大规模生成多轮工具使用场景的合成 pipeline,覆盖数百领域、数千工具。高质量样本由 LLM 评估筛选后用于训练。
  • 通用强化学习:Kimi K2 不仅在可验证任务上(代码、数学)强化学习,还通过引入自我评价机制(self-judging),解决了不可验证任务的奖励稀缺问题。通过可验证任务持续优化 critic,提升泛化任务表现。

🚀 即刻体验

前往 kimi.com 或下载 Kimi App,立即与 Kimi K2 模型开启对话。

(模型已具备工具调用能力,相关功能正在内测中,即将开放,Stay tuned!

 

image.gif 编辑

点击阅读原文,即可跳转模型链接~

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Instruct

目录
相关文章
|
JSON 测试技术 API
评测最火的 11 款 REST API GUI
尽管 RESTful Web 服务具有可扩展性且易于维护,但是手动进行 API 测试操作复杂,因此我们需要选择一些好用的客户端来帮助我们测试 REST API。这里,码匠为大家罗列了 11 款最火的用于 REST API 测试的客户端工具。
5762 1
评测最火的 11 款 REST API  GUI
|
10月前
|
人工智能 Kubernetes 安全
Higress 入选全球 Top 100 MCP Servers 榜单|MCPMarket.com
MCPMarket.com 近日发布了全球 Top 100 MCP Servers 榜单,Higress 作为 MCP Hosting 方案入选。Higress 是一款开源 AI 原生 API 网关,支持 K8s 微服务架构、大模型统一代理及 MCP 快速转化等三大核心场景。此外,Higress 上线了 MCP 市场,官方维护 50+ Server,提供一键安装支持。
|
监控 Java 索引
ES 生产中10个常见参数阈值(默认最大值)操作及优化解决方案
ES 生产中10个常见参数阈值(默认最大值)操作及优化解决方案
ES 生产中10个常见参数阈值(默认最大值)操作及优化解决方案
|
7月前
|
测试技术 Swift 开发者
可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!
字节跳动 Seed 团队正式发布了 Seed-OSS 系列开源大型语言模型,提供强大的长上下文、推理、代理和通用功能,以及对开发者友好的多功能特性。
827 9
|
8月前
|
人工智能 数据可视化 算法
CrewAI与LangGraph:下一代智能体编排平台深度测评
在过去的一年里,我深度研究了多种智能体编排平台的技术演进,见证了从单一智能体应用向多智能体协作系统的转变。随着大语言模型能力的不断提升,**智能体编排(Agent Orchestration)**已成为构建复杂AI系统的核心技术。在众多新兴框架中,CrewAI以其直观的团队协作模式和LangGraph以其强大的状态图编排能力,代表了两种截然不同的技术路径。 CrewAI采用**代码优先(Code-First)的编排方式,将智能体建模为具有特定角色和目标的团队成员;而LangGraph则提供可视化编排(Visual Orchestration)**能力,通过状态图来管理复杂的工作流程。这两种平台
1132 0
CrewAI与LangGraph:下一代智能体编排平台深度测评
|
8月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
10月前
|
机器学习/深度学习 算法 测试技术
DeepSeek-R1-0528:小更新大升级
今天,DeepSeek R1 开源发布了其“小版本”升级——DeepSeek-R1-0528。
1223 23
DeepSeek-R1-0528:小更新大升级
|
8月前
|
人工智能 安全 API
用Qwen Code,体验全新AI编程——高效模型接入首选ModelGate
Qwen Code 是通义千问推出的AI编程助手,支持自然语言编程与智能代码生成,大幅提升开发效率。结合 ModelGate,可实现多模型统一管理、安全调用,解决API切换、权限控制、稳定性等问题,是Claude Code的理想国产替代方案。
|
9月前
|
Ubuntu Linux Shell
Linux环境下VSCode快速安装终极指南:debian/ubuntu/linux平台通用
以上就是在Linux环境下安装VSCode的终极指南,抛开繁复的专业词汇,以平易近人的文字、形象生动的比喻让你轻松学会这一过程。别忘了,你的小伙伴VSCode已经在应用菜单里等你了!
2773 23

热门文章

最新文章