开发者社区 > ModelScope模型即服务 > 正文

modelscope中哪种占用显存最小呢?

full_ddp_zero3、lora_ddp_ds、lora_ddp_zero3、qlora 和 qlora_ddp_ds,modelscope中哪种占用显存最小呢?

展开
收起
小小爱吃香菜 2024-03-18 20:32:01 116 0
4 条回答
写回答
取消 提交回答
  • 关于占用显存最小的问题,由于每种模型结构、大小以及训练方式(如ddp、ds等分布式策略)都有所差异,理论上参数量更小、优化更高效的模型会占用较少显存。但从提供的模型名称中难以直接判断哪个占用显存最小,建议查阅每个模型的具体参数量和训练配置,或者直接在同等条件下运行测试对比。

    2024-03-19 15:56:41
    赞同 展开评论 打赏
  • 关于 ModelScope 中各种模型训练占用显存的比较,这里列举的几个模型名称可能是不同训练策略下的变体,它们的具体显存占用情况会根据模型大小、批次大小、序列长度等因素而变化。通常情况下,"zero-shot" 或 "ds" 等变体可能会在一定程度上减少显存占用,而 "full" 类型的模型可能占用更多显存。Lora 和 QLora 是对基础模型结构的优化版本,理论上可能更节省显存。要准确知道哪一种模型在特定条件下占用显存最小,建议查阅 ModelScope 的官方文档或直接通过实验测试来确定。

    2024-03-19 10:59:22
    赞同 展开评论 打赏
  • 北京阿里云ACE会长

    full_ddp_zero3: 这是一种使用深度数据并行(Deep Data Parallelism)的分布式训练策略,其中zero3指的是优化的梯度聚合策略。这种策略可以减少显存占用,因为它允许梯度在多个GPU之间分散计算。
    full_ddp_zero3: 这是一种使用深度数据并行(Deep Data Parallelism)的分布式训练策略,其中zero3指的是优化的梯度聚合策略。这种策略可以减少显存占用,因为它允许梯度在多个GPU之间分散计算。

    所有这些策略都旨在减少分布式训练中的显存占用。然而,具体哪种策略占用显存最小并不是绝对的,它取决于多种因素,包括模型的大小、数据集的规模、训练过程中的梯度累积等。
    image.png

    参考;https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/modify-the-smallest-allocatable-unit-for-gpu-sharing?spm=a2c4g.2673815.0.i8

    2024-03-18 21:15:24
    赞同 展开评论 打赏
  • sft.sh中有。此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2024-03-18 21:10:03
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载