Moonshot AI开源了最新模型Kimi K2.6,主打长时编码执行、智能体协同和前端设计生成。在Terminal-Bench 2.0、SWE-Bench Pro等编码基准上达到开源SOTA,接近GPT-5.4和Claude Opus 4.6水平。智能体集群架构从K2.5的100个子智能体扩展到300个,协调步数从1,500提升至4,000!
开源地址:
- ModelScope:https://modelscope.cn/models/moonshotai/Kimi-K2.6
- Kimi.com:https://www.kimi.com/
- Kimi Code:https://kimi.com/code
01 性能表现
编码基准
编码方面K2.6全面领先K2.5,在Terminal-Bench 2.0和SWE-Bench Pro上超越GPT-5.4,与Claude Opus 4.6基本持平。
基准 |
Kimi K2.6 |
GPT-5.4 |
Claude Opus 4.6 |
Kimi K2.5 |
Terminal-Bench 2.0 |
66.7 |
65.4 |
65.4 |
50.8 |
SWE-Bench Pro |
58.6 |
57.7 |
53.4 |
50.7 |
SWE-Multilingual |
76.7 |
— |
77.8 |
73.0 |
SWE-Bench Verified |
80.2 |
— |
80.8 |
76.8 |
智能体基准
智能体任务中DeepSearchQA表现最为突出,f1得分92.5大幅领先GPT-5.4(78.6),HLE-Full w/ tools排名第一(54.0)。
基准 |
Kimi K2.6 |
GPT-5.4 |
Claude Opus 4.6 |
Kimi K2.5 |
HLE-Full w/ tools |
54.0 |
52.1 |
53.0 |
50.2 |
BrowseComp |
83.2 |
82.7 |
83.7 |
74.9 |
DeepSearchQA (f1) |
92.5 |
78.6 |
91.3 |
89.0 |
OSWorld-Verified |
73.1 |
75.0 |
72.7 |
63.3 |
推理与视觉
数学推理与顶级闭源模型差距缩小,视觉理解方面MathVision w/ python(93.2)和V* w/ python(96.9)大幅超越Claude Opus 4.6。
基准 |
Kimi K2.6 |
GPT-5.4 |
Claude Opus 4.6 |
Kimi K2.5 |
AIME 2026 |
96.4 |
99.2 |
96.7 |
95.8 |
GPQA-Diamond |
90.5 |
92.8 |
91.3 |
87.6 |
MathVision w/ python |
93.2 |
96.1 |
84.6 |
85.0 |
V* w/ python |
96.9 |
98.4 |
86.4 |
86.9 |
所有结果均在thinking模式下测得,temperature=1.0,top-p=1.0,上下文长度262,144 tokens。
02 核心特性
长时编码能力 支持数千次工具调用、连续十余小时自主编码,跨语言(Rust、Go、Python)和跨任务(前端、DevOps、性能优化)稳定泛化。
编码基准开源领先 Terminal-Bench 2.0得分66.7,SWE-Bench Pro 58.6,均超越GPT-5.4和Claude Opus 4.6,相比K2.5提升显著。
智能体集群升级 Agent Swarm支持300个子智能体、4,000协调步数并行执行,相比K2.5分别扩展3倍和2.7倍,单次运行交付多格式输出。
编码驱动的前端设计 从简单提示词生成完整前端界面,支持交互动效和轻量全栈工作流,表现与Google AI Studio相当。
主动式智能体 支持7×24小时持续运行的自主智能体场景,实测连续自主运行5天完成监控和运维全流程。
03 核心技术
长时编码
K2.6在长时编码任务中展现出稳定的泛化能力,在内部Kimi Code Bench上相比K2.5有显著提升。
两个典型案例:
Zig推理优化 K2.6在Mac上下载部署Qwen3.5-0.8B,用Zig实现并优化模型推理。经4,000+次工具调用、12小时连续执行和14轮迭代,将吞吐从约15提升到约193 tokens/sec,最终比LM Studio快约20%。
金融撮合引擎重构 K2.6自主重构了exchange-core(8年历史的开源金融撮合引擎),13小时内执行1,000+次工具调用,精确修改4,000+行代码。通过分析CPU和内存火焰图定位瓶颈,重新配置核心线程拓扑(从4ME+2RE到2ME+1RE),中位吞吐提升185%(0.43→1.24 MT/s),性能吞吐提升133%(1.23→2.86 MT/s)。
编码驱动的前端设计
基于强大的编码能力,K2.6可从简单提示词直接生成完整前端界面,包括结构化布局、美观的Hero区域、交互元素和滚动触发动效。结合图像和视频生成工具,支持生成视觉一致的素材,提升页面整体质量。
此外K2.6已扩展到轻量全栈工作流,涵盖认证、用户交互到数据库操作。在内部Kimi Design Bench的四个类别(视觉输入、落地页构建、全栈应用开发、通用创意编程)中,K2.6表现与Google AI Studio相当。
智能体集群升级Agent Swarm
动态将任务分解为异构子任务,由自创建的领域专家智能体并发执行。K2.6将架构水平扩展到300个子智能体、4,000协调步数同步执行,相比K2.5的100个子智能体和1,500步大幅提升。支持跨格式交付——文档、网站、幻灯片和表格在单次自主运行中完成。
还支持将PDF、表格、幻灯片等高质量文件转化为可复用技能(Skills),捕获文档的结构和风格特征,在未来任务中复现同等质量和格式。
典型案例:
针对100只全球半导体资产设计并执行5套量化策略,将麦肯锡风格PPT提取为可复用技能,交付详细建模表格和完整高管汇报演示 |
|
将一篇包含丰富可视化数据的高质量天体物理论文转化为可复用学术技能,提取其推理流程和可视化方法,产出一篇40页、7,000字的研究论文、一个包含20,000+条目的结构化数据集以及14张天文级图表 |
|
基于上传简历,生成100个子智能体匹配加州100个相关岗位,交付结构化机会数据集和100份定制简历 |
主动式智能体
K2.6在OpenClaw和Hermes等7×24小时持续运行的自主智能体场景中表现出色。不同于简单对话交互,这类工作流要求AI主动管理日程、执行代码、编排跨平台操作。
内部RL基础设施团队实测K2.6智能体连续自主运行5天,完成监控、事件响应和系统运维全流程,展现了持久上下文维护、多线程任务处理和从告警到解决的完整执行能力。
在内部Claw Bench(覆盖编码任务、IM生态集成、信息研究分析、定时任务管理和记忆利用五个领域)上,K2.6在任务完成率和工具调用准确率上全面超越K2.5。
K2.6 智能体运行记录——5天自主工程运维工作日志
04 模型部署和推理
目前,推荐使用官方API调用,也可以在vLLM、SGLang和KTransformers推理引擎上运行 Kimi-K2.6:
官方API调用
这是一个简单的聊天补全脚本,展示了如何在 Thinking 模式和 Instant 模式下调用 K2.6 API。
import openai import base64 import requests def simple_chat(client: openai.OpenAI, model_name: str): messages = [ {'role': 'system', 'content': 'You are Kimi, an AI assistant created by Moonshot AI.'}, { 'role': 'user', 'content': [ {'type': 'text', 'text': 'which one is bigger, 9.11 or 9.9? think carefully.'} ], }, ] response = client.chat.completions.create( model=model_name, messages=messages, stream=False, max_tokens=4096 ) print('====== Below is reasoning content in Thinking Mode ======') print(f'reasoning content: {response.choices[0].message.reasoning}') print('====== Below is response in Thinking Mode ======') print(f'response: {response.choices[0].message.content}') # To use instant mode, pass {"thinking" = {"type":"disabled"}} response = client.chat.completions.create( model=model_name, messages=messages, stream=False, max_tokens=4096, extra_body={'thinking': {'type': 'disabled'}}, # this is for official API # extra_body= {'chat_template_kwargs': {"thinking": False}} # this is for vLLM/SGLang ) print('====== Below is response in Instant Mode ======') print(f'response: {response.choices[0].message.content}')
更多 API调用方式请见ModelCard:https://modelscope.cn/models/moonshotai/Kimi-K2.6
vLLM部署
推荐使用vLLM 0.19.1稳定版,nightly版本也可使用:
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly vllm serve $MODEL_PATH -tp 8 --mm-encoder-tp-mode data --trust-remote-code --tool-call-parser kimi_k2 --reasoning-parser kimi_k2
SGLang部署
需要SGLang v0.5.10及以上版本:
uv pip install "sglang>=0.5.10.post1" --prerelease=allow sglang serve --model-path $MODEL_PATH --tp 8 --trust-remote-code --tool-call-parser kimi_k2 --reasoning-parser kimi_k2
KTransformers部署
使用KTransformers + SGLang进行CPU+GPU异构推理:
python -m sglang.launch_server \ --host 0.0.0.0 \ --port 31245 \ --model /path/to/kimi-k2.6 \ --kt-weight-path /path/to/kimi-k2.6 \ --kt-cpuinfer 96 \ --kt-threadpool-count 2 \ --kt-num-gpu-experts 30 \ --kt-method RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --trust-remote-code \ --mem-fraction-static 0.94 \ --served-model-name Kimi-K2.6 \ --enable-mixed-chunk \ --tensor-parallel-size 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --chunked-prefill-size 32658 \ --max-total-tokens 50000 \ --attention-backend flashinfer
注:--tool-call-parser kimi_k2用于启用工具调用,--reasoning-parser kimi_k2用于正确处理思考模式输出,两个参数均为必需。
Kimi K2.6与K2.5架构相同,部署方式可直接复用。
05 总结
Kimi K2.6在长时编码、智能体协同和前端设计三个方向上实现了显著进步,编码能力达到开源SOTA并逼近顶级闭源模型。Agent Swarm架构的大幅扩展将智能体协作从单一模型执行推向多智能体、多设备、人机协同的新范式。作为开源模型,K2.6为社区在自主编码、智能体开发和企业级部署方面提供了强有力的基座选择。