Kimi开源MoE架构多模态推理模型,小激活参数,大能量!

简介: 最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

引言

最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

课代表敲黑板,Kimi-VL 在多个具有挑战性的领域中表现出色:

  1. 作为一个通用的 VLM,Kimi-VL 在多轮次代理交互任务(例如,OSWorld)上表现出色,达到了与旗舰模型相当的最先进结果。
  2. 它在多种多样且具有挑战性的视觉语言任务中展示了非凡的能力,包括大学水平的图像和视频理解、光学字符识别 (OCR)、数学推理、多图像理解等。
  3. 在对比评估中,它有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效 VLM 竞争,并在几个专业领域超越了 GPT-4o。
  4. 模型配备了一个 128K 的扩展上下文窗口,Kimi-VL 可以处理长而多样化的输入,在 LongVideoBench 上得分为 64.5,在 MMLongBench-Doc 上得分为 35.1;
  5. 其原生分辨率视觉编码器 MoonViT 进一步使其能够看到并理解超高分辨率的视觉输入,在 InfoVQA 上得分为 83.2,在 ScreenSpot-Pro 上得分为 34.5,同时在处理常见的视觉输入和一般任务时保持较低的计算成本。

基于这一基础,Moonshot同时推出了:Kimi-VL-Thinking。通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,该模型展现出强大的长期推理能力。它在 MMMU 上得分 61.7,在 MathVision 上得分 36.8,在 MathVista 上得分 71.3,同时保持紧凑的 2.8B 激活 LLM 参数量,为高效且能力强的多模态思考模型树立了新标准。

模型架构

该模型采用 MoE 语言模型、原生分辨率视觉编码器(MoonViT)和 MLP 投影仪,如下图所示。

image.png

模型列表

对于一般的多模态感知和理解、OCR、长视频和长文档、视频感知以及代理用途,推荐使用 Kimi-VL-A3B-Instruct 以实现高效的推理;对于高级文本和多模态推理(例如数学),请考虑使用 Kimi-VL-A3B-Thinking

模型

总参数数

激活参数数

上下文长度

下载链接

Kimi-VL-A3B-Instruct

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Instruct

Kimi-VL-A3B-Thinking

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Thinking

模型性能

凭借有效的长思考能力,Kimi-VL-A3B-Thinking 在 MathVision 基准测试中的表现可以与 30B/70B 的前沿开源 VLMs 相媲美:

image.png

模型推理

使用 transformers 库使用Thinking模型。

from PIL import Image
from modelscope import AutoModelForCausalLM, AutoProcessor
model_path = "moonshotai/Kimi-VL-A3B-Thinking"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
image_paths = ["./figures/demo1.png", "./figures/demo2.png"]
images = [Image.open(path) for path in image_paths]
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image_path} for image_path in image_paths
        ] + [{"type": "text", "text": "Please infer step by step who this manuscript belongs to and what it records"}],
    },
]
text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
inputs = processor(images=images, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=2048)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
response = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(response)

显存占用:

image.png

目录
相关文章
|
8月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
1182 0
|
8月前
|
存储 数据采集 自然语言处理
56_大模型微调:全参数与参数高效方法对比
随着大型语言模型(LLM)规模的不断增长,从数百亿到数千亿参数,传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年,大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践,为研究者和工程师提供全面的技术参考。
1399 0
|
8月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
417 0
|
9月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
384 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
10月前
|
人工智能 JSON API
Kimi K2,开源万亿参数大模型
Kimi K2是由月之暗面推出的全球首个开源万亿参数MoE模型,具备强大的工具调用、复杂推理与自主决策能力。该模型可通过MaaS平台快速调用,无需编码,最快5分钟即可部署,体验成本低至0元。通过Cherry Studio客户端,用户可便捷配置API密钥并调用模型,同时支持MCP功能,实现网页内容抓取等扩展能力。操作简单、功能强大,适合企业与开发者高效应用。
|
10月前
|
编解码 文字识别 自然语言处理
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
Dots.ocr 是一款仅1.7B参数的视觉语言模型,正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构,突破传统OCR多模块流水线的限制。在多项基准测试中,其表现超越大参数模型,展现出“小而精”的实用价值,标志着OCR技术向高效、统一、灵活方向演进。
977 0
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
|
10月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
640 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
11月前
|
数据采集 人工智能 安全
开源赋能双碳:MyEMS 能源管理系统的架构与实践价值
在全球碳中和趋势与“双碳”目标推动下,能源管理趋向精细化与智能化。MyEMS是一款基于Python开发的开源能源管理系统,具备灵活适配、功能全面的优势,覆盖工厂、建筑、数据中心等多元场景。系统支持能源数据采集、分析、可视化及设备管理、故障诊断、AI优化控制等功能,提供“监测-分析-优化”闭环解决方案。遵循“国家+省级+接入端”三级架构,MyEMS在重点用能单位能耗监测中发挥关键作用,助力实现能源效率提升与政策合规。开源模式降低了技术门槛,推动“双碳”目标落地。
380 0
|
8月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
2442 2

热门文章

最新文章