LlamaV-o1：全能多模态视觉推理模型，推理得分超越其他开源模型，推理速度翻5倍

2025-01-16 256

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，任选一个服务类型 1个月

简介： LlamaV-o1 是一款多模态视觉推理模型，通过逐步推理学习方法解决复杂任务，支持透明推理过程，适用于医疗、金融等领域。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：LlamaV-o1 支持多模态视觉推理，能够结合文本、图像和视频等多种模态信息。
技术：采用课程学习和集束搜索优化技术，提升模型的推理准确性和效率。
性能：在 VRC-Bench 基准测试中，推理得分达到 68.93，超越多个开源模型。

正文（附运行示例）

LlamaV-o1 是什么

LlamaV-o1

LlamaV-o1 是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的多模态视觉推理模型。该模型旨在提升大型语言模型在视觉推理任务中的逐步推理能力。通过引入视觉推理链基准测试 VRC-Bench，LlamaV-o1 能够全面评估模型的推理能力，并在复杂视觉任务中表现出色。

LlamaV-o1 采用多步课程学习方法进行训练，任务按顺序组织，从简单到复杂逐步掌握技能。实验结果显示，LlamaV-o1 在推理步骤评分上达到 68.93，优于多个开源模型，并在与闭源模型的对比中表现优异。

LlamaV-o1 的主要功能

多模态视觉推理：能够结合文本、图像和视频等多种模态的信息，处理复杂的视觉推理任务，如分析财务图表和医学影像等。
逐步推理与透明性：通过结构化的训练范式逐步学习，能够逐步演示其解决问题的过程，提供透明的推理过程，适合医疗诊断、金融等领域。
强大的评估基准：研究团队推出了 VRC-Bench 基准测试，涵盖视觉推理、医学成像等 8 个类别的 1000 多项任务，包含 4000 多个手动验证的推理步骤，全面评估模型的推理能力。
高性能表现：在 VRC-Bench 基准测试中，LlamaV-o1 的推理得分达到 68.93，超过其他开源模型，推理速度比同类产品快五倍。

LlamaV-o1 的技术原理

课程学习方法：LlamaV-o1 采用多步课程学习方法进行训练，任务按顺序组织，从简单到复杂逐步掌握技能。
集束搜索优化：结合集束搜索技术，通过并行生成多个推理路径并选择最符合逻辑的路径，提高模型的准确性和效率。
视觉推理链基准测试（VRC-Bench）：引入 VRC-Bench 基准测试，涵盖八个不同类别的挑战，总共有超过 4000 个推理步骤，全面评估模型的多步推理能力。
新评估指标：提出了一种新指标，以单步粒度评估视觉推理质量，强调正确性和逻辑连贯性。
预训练数据集：使用针对推理任务优化的数据集 LLaVA-CoT-100k 进行训练，数据集包含大量的推理步骤和相关标注，有助于模型学习更准确和连贯的推理过程。

如何运行 LlamaV-o1

1. 加载模型

from transformers import MllamaForConditionalGeneration, AutoProcessor

model_id = "omkarthawakar/LlamaV-o1"

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)

2. 推理示例

# 加载图像和文本输入
image = Image.open("example_image.jpg")
text = "请分析这张图像中的内容。"

# 处理输入
inputs = processor(text, images=image, return_tensors="pt").to("cuda")

# 生成推理结果
outputs = model.generate(**inputs)
print(processor.decode(outputs[0], skip_special_tokens=True))

3. 训练模型

LlamaV-o1 使用 llama-recipes 进行微调，更多训练细节将在后续更新中提供。

资源

GitHub 仓库：https://github.com/mbzuai-oryx/LlamaV-o1
HuggingFace 仓库：https://huggingface.co/omkarthawakar/LlamaV-o1
arXiv 技术论文：https://arxiv.org/pdf/2501.06186