备案控制台

开发者社区 > ModelScope模型即服务 > 多模态 > 正文

关于qwen2-vl微调最佳实践

我使用参考链接https://www.modelscope.cn/docs/large-model-training-and-inference/multimodal/best-practice/qwen2-vl 中的图像描述微调进行微调测试。
无论我使用Qwen2-VL-2B-Instruct还是Qwen2-VL-7B-Instruct进行微调，都会报错
[rank0]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 74.46 GiB.
正常来说无论是就算是7B应该也不会需要到75G左右的微调显存吧，而且就算7B需要那么多，2B也不应该一点变化也没有，也是那么多。
我运行的参数为：
os.environ['TORCH_CUDA_ARCH_LIST']="9.0"
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
os.environ['NPROC_PER_NODE'] = '1'
os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'

sys.argv.extend(['--model_type', 'qwen2_vl'
,'--model','/home/DataAndModel/model_file/Qwen/Qwen2-VL-2B-Instruct'
, '--train_type', 'lora'
, '--dataset', '/home/DataAndModel/Data_flie/Ray_test/train.jsonl'
, '--val_dataset', '/home/DataAndModel/Data_flie/Ray_test/val.jsonl'
, '--deepspeed', '/home/DataAndModel/model_file/Qwen/Qwen2-VL-Instruct-sft/deepSpeed.json'
, '--num_train_epochs', '2'
, '--lora_rank', '4'
, '--lora_alpha', '8'
, '--gradient_checkpointing', 'true'
, '--weight_decay', '0.1'
, '--learning_rate', '1e-4'
, '--max_length', '1024'
])
数据集为自定义数据集，格式也是链接中的格式，大概来说
{"query": "55555", "response": "66666", "images": ["image_path"]}

整体数据集也只有20多条数据。用尽各种方法想要降低显存消耗，但是最后都会提示Tried to allocate 74.46 GiB。
望各位大神不吝赐教，在此拜谢

展开

收起

aliyun1801097965 2025-01-06 11:33:10 40 0

0 条回答

写回答

取消提交回答

相关问答

this xml file does not appear to have any style in

33090

8

0

如果购买了域名，一定要备案才能用吗

37674

36

0

OSS的endpoint如何查看

30207

3

0

有哪些值得收藏的五个种子搜索引擎&磁力搜索引擎？

94213

16

0

com/action/joingroup?code=v1是什么意思

206819

20

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

56358

30

0

配置了安全组规则，端口还是无法访问

27857

21

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

231983

10

0

购买阿里国外的云服务器是否可以访问谷歌？

76009

46

0

阿里云服务器如何重置系统？

21818

4

0

ModelScope模型即服务

多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

我要提问

热门讨论

热门文章

关于qwen2-vl微调最佳实践

为什么用vllm部署qwen2-2b-vl，传输2张照片却，只回答一张照片的问题？

!pip install open_clip_torch !pip install pytorch-

请问Qwen-VL怎么用自己的数据集微调

有人遇到吗？modelscope:cuda is not available, using cpu

怎么修改model scope的默认存储位置

multi-modal-embedding注册问题

【求助】关于使用Qwen2-7B-VL多模型模型识别图片某个元素的坐标的问题

对于ofa 6b en 模型，当我们使用pipline时能否一张图片生成多个句子？

图文匹配：Clip模型介绍

展开全部

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

LongDocURL：中科院联合阿里推出多模态长文档理解基准数据集，用于评估模型对复杂文档分析与推理的能力

StockMixer：上海交大推出预测股票价格的 MLP 架构，通过捕捉指标、时间和股票间的复杂相关性，预测下一个交易日的收盘价

AigcPanel：开源的 AI 虚拟数字人系统，一键安装开箱即用，支持视频合成、声音合成和声音克隆

Browser Use：开源 AI 浏览器助手，自动完成网页交互任务，支持多标签页管理、视觉识别和内容提取等功能

Eliza：TypeScript 版开源 AI Agent 开发框架，快速搭建智能、个性的 Agents 系统

MMedAgent：专为医疗领域设计的多模态 AI 智能体，支持医学影像处理、报告生成等多种医疗任务

FinRobot：开源的金融专业 AI Agent，提供市场预测、报告分析和交易策略等金融解决方案

AgiBot World：智元机器人开源百万真机数据集，数据集涵盖了日常生活所需的绝大多数动作

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

展开全部

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载