Transformers 4.37 中文文档（十五）（5）-阿里云开发者社区

Transformers 4.37 中文文档（十五）（4）https://developer.aliyun.com/article/1564967

AdaFactor（PyTorch）

`class transformers.Adafactor`

( params lr = None eps = (1e-30, 0.001) clip_threshold = 1.0 decay_rate = -0.8 beta1 = None weight_decay = 0.0 scale_parameter = True relative_step = True warmup_init = False )

参数

params（Iterable[nn.parameter.Parameter]）— 要优化的参数的可迭代对象或定义参数组的字典。
lr（float，可选）— 外部学习率。
eps（Tuple[float, float]，可选，默认为(1e-30, 0.001)）— 平方梯度和参数比例的正则化常数
clip_threshold（float，可选，默认为 1.0）— 最终梯度更新的均方根阈值
decay_rate（float，可选，默认为-0.8）— 用于计算平方运行平均值的系数
beta1（float，可选）— 用于计算梯度的运行平均值的系数
weight_decay（float，可选，默认为 0.0）— 权重衰减（L2 惩罚）
scale_parameter（bool，可选，默认为True）— 如果为 True，则学习率将按均方根缩放
relative_step（bool，可选，默认为True）— 如果为 True，则计算时间相关的学习率，而不是外部学习率
warmup_init（bool，可选，默认为False）— 时间相关的学习率计算取决于是否使用了热身初始化

AdaFactor 的 PyTorch 实现可用作 Adam 原始 fairseq 代码的替代品：github.com/pytorch/fairseq/blob/master/fairseq/optim/adafactor.py

论文：Adafactor：自适应学习率与亚线性内存成本 arxiv.org/abs/1804.04235 请注意，此优化器根据scale_parameter、relative_step和warmup_init选项内部调整学习率。要使用手动（外部）学习率调度，您应将scale_parameter=False和relative_step=False。

此实现处理低精度（FP16，bfloat）值，但我们尚未进行彻底测试。

推荐的 T5 微调设置（discuss.huggingface.co/t/t5-finetuning-tips/684/3）：

不建议在没有 LR 热身或 clip_threshold 的情况下进行训练。

使用计划的 LR 热身到固定的 LR
使用 clip_threshold=1.0 (arxiv.org/abs/1804.04235)

禁用相对更新
使用 scale_parameter=False
不应该在 Adafactor 旁边使用额外的优化器操作，如梯度裁剪。

示例：

Adafactor(model.parameters(), scale_parameter=False, relative_step=False, warmup_init=False, lr=1e-3)

其他人报告以下组合效果很好：

Adafactor(model.parameters(), scale_parameter=True, relative_step=True, warmup_init=True, lr=None)

当使用lr=None与 Trainer 时，您很可能需要使用AdafactorSchedule

调度器如下：

from transformers.optimization import Adafactor, AdafactorSchedule
optimizer = Adafactor(model.parameters(), scale_parameter=True, relative_step=True, warmup_init=True, lr=None)
lr_scheduler = AdafactorSchedule(optimizer)
trainer = Trainer(..., optimizers=(optimizer, lr_scheduler))

用法：

# replace AdamW with Adafactor
optimizer = Adafactor(
    model.parameters(),
    lr=1e-3,
    eps=(1e-30, 1e-3),
    clip_threshold=1.0,
    decay_rate=-0.8,
    beta1=None,
    weight_decay=0.0,
    relative_step=False,
    scale_parameter=False,
    warmup_init=False,
)

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Transformers 4.37 中文文档（十五）（5）

AdaFactor（PyTorch）

class transformers.Adafactor

步骤

AdamWeightDecay（TensorFlow）

class transformers.AdamWeightDecay

from_config

transformers.create_optimizer

时间表

学习率时间表（Pytorch）

class transformers.SchedulerType

transformers.get_scheduler

transformers.get_constant_schedule

transformers.get_constant_schedule_with_warmup

transformers.get_inverse_sqrt_schedule

Warmup（TensorFlow）

类 transformers.WarmUp

梯度策略

GradientAccumulator（TensorFlow）

类 transformers.GradientAccumulator

重置

transformers.get_inverse_sqrt_schedule

Warmup（TensorFlow）

类 transformers.WarmUp

梯度策略

GradientAccumulator（TensorFlow）

类 transformers.GradientAccumulator

重置

热门文章

最新文章

相关课程

相关电子书

`class transformers.Adafactor`

`步骤`

`class transformers.AdamWeightDecay`

`from_config`

`transformers.create_optimizer`

`class transformers.SchedulerType`

`transformers.get_scheduler`

`transformers.get_constant_schedule`

`transformers.get_constant_schedule_with_warmup`

`transformers.get_inverse_sqrt_schedule`

`类 transformers.WarmUp`

`类 transformers.GradientAccumulator`

`重置`

`transformers.get_inverse_sqrt_schedule`

`类 transformers.WarmUp`

`类 transformers.GradientAccumulator`

`重置`