Kimi开源MoE架构多模态推理模型,小激活参数,大能量!

简介: 最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

引言

最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

课代表敲黑板,Kimi-VL 在多个具有挑战性的领域中表现出色:

  1. 作为一个通用的 VLM,Kimi-VL 在多轮次代理交互任务(例如,OSWorld)上表现出色,达到了与旗舰模型相当的最先进结果。
  2. 它在多种多样且具有挑战性的视觉语言任务中展示了非凡的能力,包括大学水平的图像和视频理解、光学字符识别 (OCR)、数学推理、多图像理解等。
  3. 在对比评估中,它有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效 VLM 竞争,并在几个专业领域超越了 GPT-4o。
  4. 模型配备了一个 128K 的扩展上下文窗口,Kimi-VL 可以处理长而多样化的输入,在 LongVideoBench 上得分为 64.5,在 MMLongBench-Doc 上得分为 35.1;
  5. 其原生分辨率视觉编码器 MoonViT 进一步使其能够看到并理解超高分辨率的视觉输入,在 InfoVQA 上得分为 83.2,在 ScreenSpot-Pro 上得分为 34.5,同时在处理常见的视觉输入和一般任务时保持较低的计算成本。

基于这一基础,Moonshot同时推出了:Kimi-VL-Thinking。通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,该模型展现出强大的长期推理能力。它在 MMMU 上得分 61.7,在 MathVision 上得分 36.8,在 MathVista 上得分 71.3,同时保持紧凑的 2.8B 激活 LLM 参数量,为高效且能力强的多模态思考模型树立了新标准。

模型架构

该模型采用 MoE 语言模型、原生分辨率视觉编码器(MoonViT)和 MLP 投影仪,如下图所示。

image.png

模型列表

对于一般的多模态感知和理解、OCR、长视频和长文档、视频感知以及代理用途,推荐使用 Kimi-VL-A3B-Instruct 以实现高效的推理;对于高级文本和多模态推理(例如数学),请考虑使用 Kimi-VL-A3B-Thinking

模型

总参数数

激活参数数

上下文长度

下载链接

Kimi-VL-A3B-Instruct

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Instruct

Kimi-VL-A3B-Thinking

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Thinking

模型性能

凭借有效的长思考能力,Kimi-VL-A3B-Thinking 在 MathVision 基准测试中的表现可以与 30B/70B 的前沿开源 VLMs 相媲美:

image.png

模型推理

使用 transformers 库使用Thinking模型。

from PIL import Image
from modelscope import AutoModelForCausalLM, AutoProcessor
model_path = "moonshotai/Kimi-VL-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
image_paths = ["./figures/demo1.png", "./figures/demo2.png"]
images = [Image.open(path) for path in image_paths]
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image_path} for image_path in image_paths
        ] + [{"type": "text", "text": "Please infer step by step who this manuscript belongs to and what it records"}],
    },
]
text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
inputs = processor(images=images, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=2048)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(response)

显存占用:

image.png

目录
相关文章
|
5月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
1414 4
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
694 120
|
5月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
810 10
|
5月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
1435 2
|
5月前
|
机器学习/深度学习 存储 缓存
大模型推理加速技术:PagedAttention原理与实现
本文深入解析大语言模型推理中的革命性技术——PagedAttention,该技术是vLLM推理引擎的核心创新。通过将操作系统中的虚拟内存分页概念引入注意力机制,PagedAttention有效解决了KV缓存的内存碎片问题,实现了近乎零浪费的KV缓存管理。文章详细阐述其原理、内存管理机制、实现细节,并提供完整的代码示例和性能分析。
681 1
|
5月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路

热门文章

最新文章