LlamaV-o1:全能多模态视觉推理模型,推理得分超越其他开源模型,推理速度翻5倍

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: LlamaV-o1 是一款多模态视觉推理模型,通过逐步推理学习方法解决复杂任务,支持透明推理过程,适用于医疗、金融等领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:LlamaV-o1 支持多模态视觉推理,能够结合文本、图像和视频等多种模态信息。
  2. 技术:采用课程学习和集束搜索优化技术,提升模型的推理准确性和效率。
  3. 性能:在 VRC-Bench 基准测试中,推理得分达到 68.93,超越多个开源模型。

正文(附运行示例)

LlamaV-o1 是什么

LlamaV-o1

LlamaV-o1 是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的多模态视觉推理模型。该模型旨在提升大型语言模型在视觉推理任务中的逐步推理能力。通过引入视觉推理链基准测试 VRC-Bench,LlamaV-o1 能够全面评估模型的推理能力,并在复杂视觉任务中表现出色。

LlamaV-o1 采用多步课程学习方法进行训练,任务按顺序组织,从简单到复杂逐步掌握技能。实验结果显示,LlamaV-o1 在推理步骤评分上达到 68.93,优于多个开源模型,并在与闭源模型的对比中表现优异。

LlamaV-o1 的主要功能

  • 多模态视觉推理:能够结合文本、图像和视频等多种模态的信息,处理复杂的视觉推理任务,如分析财务图表和医学影像等。
  • 逐步推理与透明性:通过结构化的训练范式逐步学习,能够逐步演示其解决问题的过程,提供透明的推理过程,适合医疗诊断、金融等领域。
  • 强大的评估基准:研究团队推出了 VRC-Bench 基准测试,涵盖视觉推理、医学成像等 8 个类别的 1000 多项任务,包含 4000 多个手动验证的推理步骤,全面评估模型的推理能力。
  • 高性能表现:在 VRC-Bench 基准测试中,LlamaV-o1 的推理得分达到 68.93,超过其他开源模型,推理速度比同类产品快五倍。

LlamaV-o1 的技术原理

  • 课程学习方法:LlamaV-o1 采用多步课程学习方法进行训练,任务按顺序组织,从简单到复杂逐步掌握技能。
  • 集束搜索优化:结合集束搜索技术,通过并行生成多个推理路径并选择最符合逻辑的路径,提高模型的准确性和效率。
  • 视觉推理链基准测试(VRC-Bench):引入 VRC-Bench 基准测试,涵盖八个不同类别的挑战,总共有超过 4000 个推理步骤,全面评估模型的多步推理能力。
  • 新评估指标:提出了一种新指标,以单步粒度评估视觉推理质量,强调正确性和逻辑连贯性。
  • 预训练数据集:使用针对推理任务优化的数据集 LLaVA-CoT-100k 进行训练,数据集包含大量的推理步骤和相关标注,有助于模型学习更准确和连贯的推理过程。

如何运行 LlamaV-o1

1. 加载模型

from transformers import MllamaForConditionalGeneration, AutoProcessor

model_id = "omkarthawakar/LlamaV-o1"

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)

2. 推理示例

# 加载图像和文本输入
image = Image.open("example_image.jpg")
text = "请分析这张图像中的内容。"

# 处理输入
inputs = processor(text, images=image, return_tensors="pt").to("cuda")

# 生成推理结果
outputs = model.generate(**inputs)
print(processor.decode(outputs[0], skip_special_tokens=True))

3. 训练模型

LlamaV-o1 使用 llama-recipes 进行微调,更多训练细节将在后续更新中提供。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
380 6
开源单图生成3D模型TripoSR的局限性分析
|
28天前
|
机器学习/深度学习 人工智能 算法
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
Kimi k1.5 是月之暗面推出的多模态思考模型,具备强大的推理和多模态处理能力,支持长链思维与短链思维,性能超越GPT-4和Claude 3.5。
340 10
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
288 0
|
3月前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
75 6
|
4月前
|
机器学习/深度学习 人工智能 并行计算
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat 是一款革命性的平台,专为简化和加速类ChatGPT模型的训练而设计。通过一键式脚本,用户可以轻松完成从预训练模型到生成自定义ChatGPT模型的全过程。该系统复刻了InstructGPT的RLHF训练方法,并集成了一系列优化技术,如DeepSpeed Hybrid Engine,大幅提升了训练效率和经济性。使用DeepSpeed Chat,即使是拥有数千亿参数的大模型,也能在短时间内完成训练,且成本显著降低。无论是单GPU还是多GPU集群环境,DeepSpeed Chat都能提供卓越的性能和易用性,让RLHF训练变得更加普及。
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
|
3月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
5月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
5月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
147 7
|
5月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
122 10
|
9月前
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
【2月更文挑战第3天】英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
215 1
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory

热门文章

最新文章