modelscope-funasronline模型单卡finetune好像会有oom，有遇到过么？

modelscope-funasronline模型单卡finetune好像会有oom，大家有遇到这种情况么？

跑着跑着就torch.cuda.OutOfMemoryError: CUDA out of memory

展开

收起

嘟嘟嘟嘟嘟嘟 2023-12-20 01:40:52 124 版权

阿里云 AI 助理回答

在使用ModelScope-FunASR的FunClip进行单卡微调（finetune）时，出现torch.cuda.OutOfMemoryError: CUDA out of memory的问题，通常是由于GPU显存不足导致的。以下是针对该问题的详细分析和解决方法：

1. 问题原因分析

显存不足：单卡微调时，模型参数、优化器状态、梯度缓存以及中间计算结果都会占用显存。如果数据量较大或模型较复杂，显存可能不足以支持整个训练过程。
未释放显存：在训练过程中，可能存在未及时释放显存的情况，例如未正确清理无用变量或未使用torch.cuda.empty_cache()。
Batch Size过大：较大的Batch Size会显著增加显存占用，尤其是在深度学习任务中。

2. 解决方案

2.1 调整Batch Size

降低Batch Size：减小每个批次的数据量可以有效减少显存占用。建议逐步尝试较小的Batch Size，直到显存能够容纳为止。

梯度累积：如果Batch Size过小影响了训练效果，可以通过梯度累积的方式模拟大Batch Size的效果。例如：

accumulation_steps = 4  # 梯度累积步数
optimizer.zero_grad()
for i, data in enumerate(dataloader):
  outputs = model(data)
  loss = loss_fn(outputs, labels)
  loss = loss / accumulation_steps  # 归一化损失
  loss.backward()
  if (i + 1) % accumulation_steps == 0:
      optimizer.step()
      optimizer.zero_grad()

2.2 使用混合精度训练

启用AMP（Automatic Mixed Precision）：通过混合精度训练，可以减少显存占用并加速训练。具体操作如下：

from torch.cuda.amp import GradScaler, autocast

scaler = GradScaler()
for data, labels in dataloader:
  optimizer.zero_grad()
  with autocast():  # 自动混合精度
      outputs = model(data)
      loss = loss_fn(outputs, labels)
  scaler.scale(loss).backward()
  scaler.step(optimizer)
  scaler.update()

注意：如果使用TorchAcc进行分布式训练，需确保在scaler.unscale_之前调用xm.all_reduce。

2.3 显存优化

清理无用变量：在训练循环中，及时释放不再需要的变量，并调用torch.cuda.empty_cache()清理显存。
```
del variable_name
torch.cuda.empty_cache()
```
检查模型结构：确保模型中没有冗余的层或参数，避免不必要的显存占用。

2.4 分布式训练

如果单卡显存不足，可以考虑使用多卡分布式训练。通过torch.distributed或TorchAcc进行分布式初始化：
```
import torch.distributed as dist
dist.init_process_group(backend='nccl', init_method='env://')
```
- 说明：分布式训练可以将显存压力分摊到多个GPU上，但需要调整代码以支持多卡环境。

2.5 调整优化器

使用更高效的优化器，例如syncfree optimizer，可以减少显存占用并提升训练速度：
```
from torchacc.torch_xla.amp import syncfree
optimizer = syncfree.AdamW(model.parameters(), lr=1e-3)
```