Kimi开源MoE架构多模态推理模型,小激活参数,大能量!

简介: 最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

引言

最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

课代表敲黑板,Kimi-VL 在多个具有挑战性的领域中表现出色:

  1. 作为一个通用的 VLM,Kimi-VL 在多轮次代理交互任务(例如,OSWorld)上表现出色,达到了与旗舰模型相当的最先进结果。
  2. 它在多种多样且具有挑战性的视觉语言任务中展示了非凡的能力,包括大学水平的图像和视频理解、光学字符识别 (OCR)、数学推理、多图像理解等。
  3. 在对比评估中,它有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效 VLM 竞争,并在几个专业领域超越了 GPT-4o。
  4. 模型配备了一个 128K 的扩展上下文窗口,Kimi-VL 可以处理长而多样化的输入,在 LongVideoBench 上得分为 64.5,在 MMLongBench-Doc 上得分为 35.1;
  5. 其原生分辨率视觉编码器 MoonViT 进一步使其能够看到并理解超高分辨率的视觉输入,在 InfoVQA 上得分为 83.2,在 ScreenSpot-Pro 上得分为 34.5,同时在处理常见的视觉输入和一般任务时保持较低的计算成本。

基于这一基础,Moonshot同时推出了:Kimi-VL-Thinking。通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,该模型展现出强大的长期推理能力。它在 MMMU 上得分 61.7,在 MathVision 上得分 36.8,在 MathVista 上得分 71.3,同时保持紧凑的 2.8B 激活 LLM 参数量,为高效且能力强的多模态思考模型树立了新标准。

模型架构

该模型采用 MoE 语言模型、原生分辨率视觉编码器(MoonViT)和 MLP 投影仪,如下图所示。

image.png

模型列表

对于一般的多模态感知和理解、OCR、长视频和长文档、视频感知以及代理用途,推荐使用 Kimi-VL-A3B-Instruct 以实现高效的推理;对于高级文本和多模态推理(例如数学),请考虑使用 Kimi-VL-A3B-Thinking

模型

总参数数

激活参数数

上下文长度

下载链接

Kimi-VL-A3B-Instruct

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Instruct

Kimi-VL-A3B-Thinking

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Thinking

模型性能

凭借有效的长思考能力,Kimi-VL-A3B-Thinking 在 MathVision 基准测试中的表现可以与 30B/70B 的前沿开源 VLMs 相媲美:

image.png

模型推理

使用 transformers 库使用Thinking模型。

from PIL import Image
from modelscope import AutoModelForCausalLM, AutoProcessor
model_path = "moonshotai/Kimi-VL-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
image_paths = ["./figures/demo1.png", "./figures/demo2.png"]
images = [Image.open(path) for path in image_paths]
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image_path} for image_path in image_paths
        ] + [{"type": "text", "text": "Please infer step by step who this manuscript belongs to and what it records"}],
    },
]
text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
inputs = processor(images=images, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=2048)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(response)

显存占用:

image.png

目录
相关文章
|
6月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
883 120
|
6月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
1797 2
|
6月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
581 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
1161 0
|
7月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1232 109
|
7月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
676 2
|
8月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
908 23

热门文章

最新文章