社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。

日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。

image.png

image.png

具体而言,本次共发布了两个多模态模型,分别为 LLaVA-Llama-3-8B 和 LLaVA-Llama-3-8B-v1.1,它们在架构上完全一样,但训练数据有些许不同。

image.png

快速上手

LLaVA-Llama-3-8B 模型权重已经开源到魔搭社区

模型下载

from modelscope import snapshot_download
# 下载 llava-llama-3-8b-v1_1,其中包含 LLM、Projector 和ViT-LoRA 权重
snapshot_download('xtuner/llava-llama-3-8b-v1_1', cache_dir='./llava-llama-3-8b-v1_1')
# 下载 clip-vit-large-patch14-336
snapshot_download('AI-ModelScope/clip-vit-large-patch14-336', cache_dir='./clip-vit-large-patch14-336')

安装环境

conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env
pip install 'git+https://github.com/InternLM/xtuner.git#egg=xtuner[deepspeed]'

图文对话

xtuner chat ./llava-llama-3-8b-v1_1 \
  --visual-encoder ./clip-vit-large-patch14-336 \
  --llava ./llava-llama-3-8b-v1_1 \
  --prompt-template llama3_chat \
  --image $IMAGE_PATH

使用魔搭社区免费算力运行图文对话推理,

对话示例:

image.png

英文问答

image.png

中文问答

image.png

显存占用:

image.png

MMBench 评测

  1. 下载 MMBench 评测数据集
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_DEV_EN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_TEST_EN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_DEV_CN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/MMBench_TEST_CN.tsv
wget https://opencompass.openxlab.space/utils/VLMEval/CCBench.tsv

  1. 执行评测
xtuner mmbench ./llava-llama-3-8b-v1_1 \
  --visual-encoder ./clip-vit-large-patch14-336 \
  --llava ./llava-llama-3-8b-v1_1 \
  --prompt-template llama3_chat \
  --data-path $DATA_PATH \
  --work-dir $RESULT_PATH
  • $DATA_PATH:指第一步所下载的 MMBench 评测集,例如 ./MMBench_DEV_EN.tsv。
  • $RESULT_PATH:指评测结果所保存的路径。

使用魔搭社区免费算力执行评测,评测结果如下:

image.png

评测后,如果是开发集(Dev),则评测结果会直接打印在 log 中;如果是测试集(Test),则需要将$RESULT_PATH 中的  mmbench_result.xlsx 提交至 MMBench 官方评测机获得评测结果(https://mmbench.opencompass.org.cn/home)。

显存占用:

image.png

训练

LLaVA-Llama-3-8B 在 1 台 8 卡 A100 上进行训练,分为预训练和指令微调两阶段,详细的数据集准备和训练配置可参考 XTuner 官方文档。(https://github.com/InternLM/xtuner/tree/main/xtuner/configs/llava/llama3_8b_instruct_clip_vit_large_p14_336

同时,XTuner 也支持单卡训练 LLaVA-Llama-3-8B(青春版),仅需单卡 20GB 即可完成多模态训练全流程。

  1. 预训练
xtuner train llava_llama3_8b_instruct_quant_clip_vit_large_p14_336_e1_gpu1_pretrain --deepspeed deepspeed_zero2 --seed 1024

算力需求:单A100, pretrain 12GB 2.5

image.png

  1. 指令微调
xtuner train llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_e1_gpu1_finetune --deepspeed deepspeed_zero2 --seed 1024

算力需求:单A100,finetune 20GB 5

image.png

点击直达模型链接

https://modelscope.cn/models/xtuner/llava-llama-3-8b/

相关文章
|
7月前
|
人工智能 边缘计算 测试技术
MLPerf推理基准测试引入Llama 2 新结果公布
【4月更文挑战第5天】MLCommons发布了最新MLPerf推理基准测试结果,涉及数据中心和边缘计算,引入了大型语言模型Llama 2进行性能评估。Llama 2在OPEN ORCA数据集上的表现提升测试复杂性,提供了更全面的性能数据。MLPerf测试涵盖图像分类、对象检测等边缘计算任务,为开发者和研究人员提供参考。测试结果存在硬件和软件配置影响的局限性,但仍是衡量AI系统性能的重要标准。
137 9
MLPerf推理基准测试引入Llama 2 新结果公布
|
7月前
|
自然语言处理 数据可视化 物联网
Qwen1.5-MoE开源,魔搭社区推理训练最佳实践教程来啦
通义千问团队推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。
|
7月前
魔塔社区的模型支持使用DJL 进行推理吗?
想使用DJL 加载魔塔社区的模型并进行推理
|
7月前
|
自然语言处理 物联网 Swift
零一万物开源Yi-VL多模态大模型,魔搭社区推理&微调最佳实践来啦!
近期,零一万物Yi系列模型家族发布了其多模态大模型系列,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。
|
1月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
4月前
|
编解码 JSON 自然语言处理
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。那么Qwen2-VL 有什么新功能呢?一起来看一下吧
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
|
5月前
|
人工智能 自然语言处理 测试技术
Meet Llama3.1,405B赶超最强闭源模型!上魔搭社区一站体验、下载、推理、微调、部署
官方公布的Benchmark显示,Llama3.1 405B已在多项基准测试中超越GPT-4o和Claude 3.5 Sonnet,这是开源大模型首次赶超最强闭源模型!
|
5月前
|
算法 API 数据中心
魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理
魔搭社区于 2022 年 11 月初创建,首次在业界提出了 “模型即服务”( MaaS, Model as a Service)的理念。
|
7月前
|
安全 测试技术 Swift
Llama 3开源,魔搭社区手把手带你推理,部署,微调和评估
Meta发布了 Meta Llama 3系列,是LLama系列开源大型语言模型的下一代。在接下来的几个月,Meta预计将推出新功能、更长的上下文窗口、额外的模型大小和增强的性能,并会分享 Llama 3 研究论文。
Llama 3开源,魔搭社区手把手带你推理,部署,微调和评估
|
5月前
|
数据可视化 物联网 Swift
谷歌开源Gemma2!魔搭社区推理、微调最佳实践教程
Google面向全球研究人员和开发者发布并开源 Gemma 2 大语言模型!本次Gemma 2 系列为轻量级开放模型,提供9B和27B参数两种尺寸,采用全新的架构设计,性能表现优异。

热门文章

最新文章

下一篇
DataWorks