文档备案控制台

开发者社区 ModelScope模型即服务多模态正文

关于qwen2-vl微调最佳实践

我使用参考链接https://www.modelscope.cn/docs/large-model-training-and-inference/multimodal/best-practice/qwen2-vl 中的图像描述微调进行微调测试。
无论我使用Qwen2-VL-2B-Instruct还是Qwen2-VL-7B-Instruct进行微调，都会报错
[rank0]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 74.46 GiB.
正常来说无论是就算是7B应该也不会需要到75G左右的微调显存吧，而且就算7B需要那么多，2B也不应该一点变化也没有，也是那么多。
我运行的参数为：
os.environ['TORCH_CUDA_ARCH_LIST']="9.0"
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
os.environ['NPROC_PER_NODE'] = '1'
os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'

sys.argv.extend(['--model_type', 'qwen2_vl'
,'--model','/home/DataAndModel/model_file/Qwen/Qwen2-VL-2B-Instruct'
, '--train_type', 'lora'
, '--dataset', '/home/DataAndModel/Data_flie/Ray_test/train.jsonl'
, '--val_dataset', '/home/DataAndModel/Data_flie/Ray_test/val.jsonl'
, '--deepspeed', '/home/DataAndModel/model_file/Qwen/Qwen2-VL-Instruct-sft/deepSpeed.json'
, '--num_train_epochs', '2'
, '--lora_rank', '4'
, '--lora_alpha', '8'
, '--gradient_checkpointing', 'true'
, '--weight_decay', '0.1'
, '--learning_rate', '1e-4'
, '--max_length', '1024'
])
数据集为自定义数据集，格式也是链接中的格式，大概来说
{"query": "55555", "response": "66666", "images": ["image_path"]}

整体数据集也只有20多条数据。用尽各种方法想要降低显存消耗，但是最后都会提示Tried to allocate 74.46 GiB。
望各位大神不吝赐教，在此拜谢

展开

收起

aliyun1801097965 2025-01-06 11:33:10 625 版权

2 条回答

写回答

取消提交回答

LucianaiB

热衷于探索AI前沿技术，擅长AI与Mass平台相关的产品推广与代理类文章评测宣传，欢迎交流。文章结尾联系我。MCP开发者 | Agent开发者 | RPA开发者 | 阿里云社区专家博主｜支付宝社区优秀创作博主｜腾讯云创作之星｜极星会KOL｜影刀+实在双RPA高级认证｜51CTO TOP红人

关于Qwen-2-VL微调的最佳实践，建议参考阿里云官方文档以获取详细步骤和优化技巧：Qwen-2-VL微调指南，如果需要更详细的帮助，可以咨询一下阿里云的工作人员。如果对您有帮助的话，可以帮忙采纳一下。谢谢。

2025-02-09 23:52:53

赞同 170 展开评论
Undoom

你遇到的显存问题可能与你的显卡CUDA版本或驱动有关，建议检查CUDA和驱动版本是否匹配。此外，尝试减少batch size或调整模型参数以降低显存需求，如果还是不理解的话，可以直接询问阿里云客服，或者提交工单给阿里云的技术顾问，回答不易，麻烦大佬给个采纳，谢谢。

2025-02-09 21:11:27

赞同 139 展开评论

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

92850

50

0

this xml file does not appear to have any style in

61412

11

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

142177

16

0

C语言数组赋值报错，打印出来的是乱码，怎么解决？

1616

1

0

#支付宝授权提示请在支付宝客户端打开链接

24909

19

0

阿里云怎样设置二级域名以及域名解析？

66936

14

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

284686

11

0

基础语言百问-Python

69720

30

0

C语言中default使用注意事项是什么？

1639

1

0

搭建dnf私服需要大概啥配置的

10468

2

0

ModelScope模型即服务

多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

我要提问

相关文章

离谱！我以为 OCR 还在一页页抠字，结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

离谱！我以为 OCR 还在一页页抠字，结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

GLM 5.2自托管实操手册：硬件选型、vLLM/SGLang部署与成本分析

2026年Stable Diffusion下载+安装+使用教程（超详细版本）收藏这一篇就够了！

竞争性自适应重加权算法（CARS）的MATLAB实现

热门讨论

热门文章

通过ollama 编写modelfile的形式创建翻译模型，输出全是思考，老是超限，翻译不出来。

下载youku-mplug的Video Captioning数据集时报错。

普通轻薄本能跑哪些多模态大模型

怎么修改model scope的默认存储位置

关于qwen2-vl微调最佳实践

该模型在在线环境使用下运行报错。

!pip install open_clip_torch !pip install pytorch-

这个有美化提示词的作用吗？以及可以美化中文提示词吗？

下载模型之后，模型的大小验证缺不通过，请问这是什么原因？

阿里魔搭社区中的 Text-to-video-synthesis 模型最多支持多长的视频生成

展开全部

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

音乐人必看！OpenUtau：开源AI歌声合成神器，快速打造专业级虚拟歌手，中文日文无缝切换

推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI

用自然语言控制电脑，字节跳动开源 UI-TARS 的桌面版应用！内附详细的安装和配置教程

video-subtitle-master：开源字幕生成神器！批量生成+AI翻译全自动，5分钟解放双手

展开全部

还有其他疑问?