Kimi开源MoE架构多模态推理模型,小激活参数,大能量!

简介: 最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

引言

最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

课代表敲黑板,Kimi-VL 在多个具有挑战性的领域中表现出色:

  1. 作为一个通用的 VLM,Kimi-VL 在多轮次代理交互任务(例如,OSWorld)上表现出色,达到了与旗舰模型相当的最先进结果。
  2. 它在多种多样且具有挑战性的视觉语言任务中展示了非凡的能力,包括大学水平的图像和视频理解、光学字符识别 (OCR)、数学推理、多图像理解等。
  3. 在对比评估中,它有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效 VLM 竞争,并在几个专业领域超越了 GPT-4o。
  4. 模型配备了一个 128K 的扩展上下文窗口,Kimi-VL 可以处理长而多样化的输入,在 LongVideoBench 上得分为 64.5,在 MMLongBench-Doc 上得分为 35.1;
  5. 其原生分辨率视觉编码器 MoonViT 进一步使其能够看到并理解超高分辨率的视觉输入,在 InfoVQA 上得分为 83.2,在 ScreenSpot-Pro 上得分为 34.5,同时在处理常见的视觉输入和一般任务时保持较低的计算成本。

基于这一基础,Moonshot同时推出了:Kimi-VL-Thinking。通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,该模型展现出强大的长期推理能力。它在 MMMU 上得分 61.7,在 MathVision 上得分 36.8,在 MathVista 上得分 71.3,同时保持紧凑的 2.8B 激活 LLM 参数量,为高效且能力强的多模态思考模型树立了新标准。

模型架构

该模型采用 MoE 语言模型、原生分辨率视觉编码器(MoonViT)和 MLP 投影仪,如下图所示。

image.png

模型列表

对于一般的多模态感知和理解、OCR、长视频和长文档、视频感知以及代理用途,推荐使用 Kimi-VL-A3B-Instruct 以实现高效的推理;对于高级文本和多模态推理(例如数学),请考虑使用 Kimi-VL-A3B-Thinking

模型

总参数数

激活参数数

上下文长度

下载链接

Kimi-VL-A3B-Instruct

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Instruct

Kimi-VL-A3B-Thinking

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Thinking

模型性能

凭借有效的长思考能力,Kimi-VL-A3B-Thinking 在 MathVision 基准测试中的表现可以与 30B/70B 的前沿开源 VLMs 相媲美:

image.png

模型推理

使用 transformers 库使用Thinking模型。

from PIL import Image
from modelscope import AutoModelForCausalLM, AutoProcessor
model_path = "moonshotai/Kimi-VL-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
image_paths = ["./figures/demo1.png", "./figures/demo2.png"]
images = [Image.open(path) for path in image_paths]
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image_path} for image_path in image_paths
        ] + [{"type": "text", "text": "Please infer step by step who this manuscript belongs to and what it records"}],
    },
]
text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
inputs = processor(images=images, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=2048)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(response)

显存占用:

image.png

目录
相关文章
|
8月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
2325 4
|
8月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
2337 8
|
8月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
3373 39
【万字长文】大模型训练推理和性能优化算法总结和实践
|
9月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
1226 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
8月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
1526 10
|
9月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
1216 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
8月前
|
机器学习/深度学习 存储 缓存
大模型推理加速技术:PagedAttention原理与实现
本文深入解析大语言模型推理中的革命性技术——PagedAttention,该技术是vLLM推理引擎的核心创新。通过将操作系统中的虚拟内存分页概念引入注意力机制,PagedAttention有效解决了KV缓存的内存碎片问题,实现了近乎零浪费的KV缓存管理。文章详细阐述其原理、内存管理机制、实现细节,并提供完整的代码示例和性能分析。
1023 1
|
9月前
|
Cloud Native API 开发者
Gemini 2.5 Flash 技术拆解:从 MoE 架构到阿里云生态落地指南
2025年9月,谷歌Gemini 2.5 Flash发布,性能提升5%、成本降24%,引发行业关注。其MoE架构、百万上下文与“思考”范式,助力阿里云开发者高效构建云原生应用。本文解析技术内核,结合汽车、物流等案例,提供落地指南与避坑建议,展望大模型与流计算融合前景。
988 6

热门文章

最新文章