modelscope中哪种占用显存最小呢？

full_ddp_zero3、lora_ddp_ds、lora_ddp_zero3、qlora 和 qlora_ddp_ds，modelscope中哪种占用显存最小呢？

展开

收起

小小爱吃香菜 2024-03-18 20:32:01 128 0

4 条回答

写回答

取消提交回答

听风de歌

关于占用显存最小的问题，由于每种模型结构、大小以及训练方式（如ddp、ds等分布式策略）都有所差异，理论上参数量更小、优化更高效的模型会占用较少显存。但从提供的模型名称中难以直接判断哪个占用显存最小，建议查阅每个模型的具体参数量和训练配置，或者直接在同等条件下运行测试对比。

2024-03-19 15:56:41

赞同展开评论打赏
小Lee

关于 ModelScope 中各种模型训练占用显存的比较，这里列举的几个模型名称可能是不同训练策略下的变体，它们的具体显存占用情况会根据模型大小、批次大小、序列长度等因素而变化。通常情况下，"zero-shot" 或 "ds" 等变体可能会在一定程度上减少显存占用，而 "full" 类型的模型可能占用更多显存。Lora 和 QLora 是对基础模型结构的优化版本，理论上可能更节省显存。要准确知道哪一种模型在特定条件下占用显存最小，建议查阅 ModelScope 的官方文档或直接通过实验测试来确定。

2024-03-19 10:59:22

赞同展开评论打赏
算精通

北京阿里云ACE会长

full_ddp_zero3: 这是一种使用深度数据并行（Deep Data Parallelism）的分布式训练策略，其中zero3指的是优化的梯度聚合策略。这种策略可以减少显存占用，因为它允许梯度在多个GPU之间分散计算。
full_ddp_zero3: 这是一种使用深度数据并行（Deep Data Parallelism）的分布式训练策略，其中zero3指的是优化的梯度聚合策略。这种策略可以减少显存占用，因为它允许梯度在多个GPU之间分散计算。

所有这些策略都旨在减少分布式训练中的显存占用。然而，具体哪种策略占用显存最小并不是绝对的，它取决于多种因素，包括模型的大小、数据集的规模、训练过程中的梯度累积等。

参考；https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/modify-the-smallest-allocatable-unit-for-gpu-sharing?spm=a2c4g.2673815.0.i8

2024-03-18 21:15:24

赞同展开评论打赏
为了利利

sft.sh中有。此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-03-18 21:10:03

赞同展开评论打赏

modelscope中哪种占用显存最小呢？

ModelScope模型即服务

热门讨论

热门文章

相关课程

相关电子书