PyTorch 2.2 中文官方教程(十五)(4)

PyTorch 2.2 中文官方教程(十五)

开始 - 用 nvFuser 加速您的脚本



协议:CC BY-NC-SA 4.0

使用 Ax 进行多目标 NAS



协议:CC BY-NC-SA 4.0



作者: David Eriksson, Max Balandat,以及 Meta 的自适应实验团队。

在本教程中,我们展示如何使用Ax在流行的 MNIST 数据集上运行简单神经网络模型的多目标神经架构搜索(NAS)。虽然潜在的方法通常用于更复杂的模型和更大的数据集,但我们选择了一个在笔记本电脑上可以轻松运行的教程,不到 20 分钟即可完成。

在许多 NAS 应用中,存在着多个感兴趣目标之间的自然权衡。例如,在部署模型到设备上时,我们可能希望最大化模型性能(例如准确性),同时最小化竞争指标,如功耗、推理延迟或模型大小,以满足部署约束。通常情况下,通过接受略低的模型性能,我们可以大大减少预测的计算需求或延迟。探索这种权衡的原则方法是可扩展和可持续人工智能的关键推动因素,并在 Meta 上有许多成功的应用案例 - 例如,查看我们关于自然语言理解模型的案例研究。

在我们的示例中,我们将调整两个隐藏层的宽度、学习率、dropout 概率、批量大小和训练周期数。目标是在性能(验证集上的准确率)和模型大小(模型参数数量)之间进行权衡。

本教程使用以下 PyTorch 库:

  • PyTorch Lightning(指定模型和训练循环)
  • TorchX(用于远程/异步运行训练作业)
  • BoTorch(为 Ax 的算法提供动力的贝叶斯优化库)

定义 TorchX 应用

我们的目标是优化在mnist_train_nas.py中定义的 PyTorch Lightning 训练作业。为了使用 TorchX 实现这一目标,我们编写了一个辅助函数,该函数接受训练作业的架构和超参数的值,并创建一个具有适当设置的TorchX AppDef

from pathlib import Path
import torchx
from torchx import specs
from torchx.components import utils
def trainer(
    log_path: str,
    hidden_size_1: int,
    hidden_size_2: int,
    learning_rate: float,
    epochs: int,
    dropout: float,
    batch_size: int,
    trial_idx: int = -1,
) -> specs.AppDef:
    # define the log path so we can pass it to the TorchX ``AppDef``
    if trial_idx >= 0:
        log_path = Path(log_path).joinpath(str(trial_idx)).absolute().as_posix()
    return utils.python(
        # command line arguments to the training script
        # other config options

设置 Runner

Ax 的Runner抽象允许编写与各种后端的接口。Ax 已经为 TorchX 提供了 Runner,因此我们只需要配置它。在本教程中,我们以完全异步的方式在本地运行作业。

为了在集群上启动它们,您可以指定一个不同的 TorchX 调度程序,并相应地调整配置。例如,如果您有一个 Kubernetes 集群,您只需要将调度程序从local_cwd更改为kubernetes

import tempfile
from ax.runners.torchx import TorchXRunner
# Make a temporary dir to log our results into
log_dir = tempfile.mkdtemp()
ax_runner = TorchXRunner(
    # NOTE: To launch this job on a cluster instead of locally you can
    # specify a different scheduler and adjust arguments appropriately.
    component_const_params={"log_path": log_dir},


首先,我们定义我们的搜索空间。Ax 支持整数和浮点类型的范围参数,也支持选择参数,可以具有非数字类型,如字符串。我们将调整隐藏层大小、学习率、丢失率和时代数作为范围参数,并将批量大小调整为有序选择参数,以强制其为 2 的幂。

from ax.core import (
parameters = [
    # NOTE: In a real-world setting, hidden_size_1 and hidden_size_2
    # should probably be powers of 2, but in our simple example this
    # would mean that ``num_params`` can't take on that many values, which
    # in turn makes the Pareto frontier look pretty weird.
    ChoiceParameter(  # NOTE: ``ChoiceParameters`` don't require log-scale
        values=[32, 64, 128, 256],
search_space = SearchSpace(
    # NOTE: In practice, it may make sense to add a constraint
    # hidden_size_2 <= hidden_size_1


Ax 有一个度量的概念,它定义了结果的属性以及如何获取这些结果的观察。这允许例如编码数据如何从某个分布式执行后端获取并在传递给 Ax 之前进行后处理。


在我们的示例中,TorchX 将以完全异步的方式在本地运行训练作业,并根据试验索引(参见上面的trainer()函数)将结果写入log_dir。我们将定义一个度量类,该类知道该日志目录。通过子类化TensorboardCurveMetric,我们可以免费获得读取和解析 TensorBoard 日志的逻辑。

from ax.metrics.tensorboard import TensorboardCurveMetric
class MyTensorboardMetric(TensorboardCurveMetric):
    # NOTE: We need to tell the new TensorBoard metric how to get the id /
    # file handle for the TensorBoard logs from a trial. In this case
    # our convention is to just save a separate file per trial in
    # the prespecified log dir.
    def get_ids_from_trials(cls, trials):
        return {
            trial.index: Path(log_dir).joinpath(str(trial.index)).as_posix()
            for trial in trials
    # This indicates whether the metric is queryable while the trial is
    # still running. We don't use this in the current tutorial, but Ax
    # utilizes this to implement trial-level early-stopping functionality.
    def is_available_while_running(cls):
        return False 

现在我们可以实例化准确率和模型参数数量的指标。这里 curve_name 是 TensorBoard 日志中指标的名称,而 name 是 Ax 内部使用的指标名称。我们还指定 lower_is_better 来指示这两个指标的有利方向。

val_acc = MyTensorboardMetric(
model_num_params = MyTensorboardMetric(


告诉 Ax 应该优化的方式是通过OptimizationConfig。在这里,我们使用MultiObjectiveOptimizationConfig,因为我们将执行多目标优化。

此外,Ax 支持通过指定目标阈值对不同指标设置约束,这些约束限制了我们想要探索的结果空间的区域。在本例中,我们将约束验证准确率至少为 0.94(94%),模型参数数量最多为 80,000。

from ax.core import MultiObjective, Objective, ObjectiveThreshold
from ax.core.optimization_config import MultiObjectiveOptimizationConfig
opt_config = MultiObjectiveOptimizationConfig(
            Objective(metric=val_acc, minimize=False),
            Objective(metric=model_num_params, minimize=True),
        ObjectiveThreshold(metric=val_acc, bound=0.94, relative=False),
        ObjectiveThreshold(metric=model_num_params, bound=80_000, relative=False),

创建 Ax 实验

在 Ax 中,Experiment 对象是存储有关问题设置的所有信息的对象。

from ax.core import Experiment
experiment = Experiment(


GenerationStrategy 是我们希望执行优化的抽象表示。虽然这可以定制(如果您愿意这样做,请参阅此教程),但在大多数情况下,Ax 可以根据搜索空间、优化配置和我们想要运行的总试验次数自动确定适当的策略。

通常,Ax 选择在开始基于模型的贝叶斯优化策略之前评估一些随机配置。

total_trials = 48  # total evaluation budget
from ax.modelbridge.dispatch_utils import choose_generation_strategy
gs = choose_generation_strategy(
[INFO 02-03 05:14:14] ax.modelbridge.dispatch_utils: Using Models.BOTORCH_MODULAR since there are more ordered parameters than there are categories for the unordered categorical parameters.
[INFO 02-03 05:14:14] ax.modelbridge.dispatch_utils: Calculating the number of remaining initialization trials based on num_initialization_trials=None max_initialization_trials=None num_tunable_parameters=6 num_trials=48 use_batch_trials=False
[INFO 02-03 05:14:14] ax.modelbridge.dispatch_utils: calculated num_initialization_trials=9
[INFO 02-03 05:14:14] ax.modelbridge.dispatch_utils: num_completed_initialization_trials=0 num_remaining_initialization_trials=9
[INFO 02-03 05:14:14] ax.modelbridge.dispatch_utils: `verbose`, `disable_progbar`, and `jit_compile` are not yet supported when using `choose_generation_strategy` with ModularBoTorchModel, dropping these arguments.
[INFO 02-03 05:14:14] ax.modelbridge.dispatch_utils: Using Bayesian Optimization generation strategy: GenerationStrategy(name='Sobol+BoTorch', steps=[Sobol for 9 trials, BoTorch for subsequent trials]). Iterations after 9 will take longer to generate due to model-fitting. 


Scheduler 充当优化的循环控制器。它与后端通信,启动试验,检查它们的状态,并检索结果。在本教程中,它只是读取和解析本地保存的日志。在远程执行设置中,它将调用 API。来自 Ax Scheduler 教程 的以下插图总结了 Scheduler 与用于运行试验评估的外部系统的交互方式:


调度程序 需要 实验生成策略。一组选项可以通过 调度程序选项 传递进来。在这里,我们配置了总评估次数以及 max_pending_trials,即应同时运行的最大试验数。在我们的本地设置中,这是作为单独进程运行的训练作业的数量,而在远程执行设置中,这将是您想要并行使用的机器数量。

from ax.service.scheduler import Scheduler, SchedulerOptions
scheduler = Scheduler(
        total_trials=total_trials, max_pending_trials=4
[INFO 02-03 05:14:15] Scheduler: `Scheduler` requires experiment to have immutable search space and optimization config. Setting property immutable_search_space_and_opt_config to `True` on experiment. 


现在一切都配置好了,我们可以让 Ax 以完全自动化的方式运行优化。调度程序将定期检查日志,以获取所有当前运行试验的状态,如果一个试验完成,调度程序将更新其在实验中的状态,并获取贝叶斯优化算法所需的观察结果。

现在我们可以使用 Ax 提供的辅助函数和可视化工具来检查优化结果。


from ax.service.utils.report_utils import exp_to_df
df = exp_to_df(experiment)
/opt/conda/envs/py_3.10/lib/python3.10/site-packages/ax/core/ FutureWarning:
The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.
[WARNING 02-03 05:28:40] ax.service.utils.report_utils: Column reason missing for all trials. Not appending column. 
试验索引 arm 名称 试验状态 生成方法 是否可行 参数数量 准确率 隐藏层大小 1 隐藏层大小 2 学习率 迭代次数 丢失率 批量大小
0 0 0_0 完成 Sobol False 16810.0 0.908757 19 66 0.003182 4 0.190970 32
1 1 1_0 完成 Sobol False 21926.0 0.887460 23 118 0.000145 3 0.465754 256
2 2 2_0 完成 Sobol True 37560.0 0.947588 40 124 0.002745 4 0.196600 64
3 3 3_0 完成 Sobol 14756.0 0.893096 18 23 0.000166 4 0.169496 256
4 4 4_0 完成 Sobol 71630.0 0.948927 80 99 0.000642 2 0.291277 128
5 5 5_0 完成 Sobol 13948.0 0.922692 16 54 0.000444 2 0.057552 64
6 6 6_0 完成 Sobol 24686.0 0.863779 29 50 0.000177 2 0.435030 256
7 7 7_0 完成 Sobol 18290.0 0.877033 20 87 0.000119 4 0.462744 256
8 8 8_0 完成 Sobol 20996.0 0.859434 26 17 0.005245 1 0.455813 32
9 9 9_0 完成 BoTorch 53063.0 0.962563 57 125 0.001972 3 0.177780 64



Ax 使用 Plotly 生成交互式图表,允许您进行缩放、裁剪或悬停以查看图表组件的详细信息。试试看,并查看可视化教程以了解更多信息。


from ax.service.utils.report_utils import _pareto_frontier_scatter_2d_plotly
/opt/conda/envs/py_3.10/lib/python3.10/site-packages/ax/core/ FutureWarning:
The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.
[WARNING 02-03 05:28:40] ax.service.utils.report_utils: Column reason missing for all trials. Not appending column. 

为了更好地了解我们的代理模型对黑匣子目标学到了什么,我们可以看一下留一出交叉验证的结果。由于我们的模型是高斯过程,它们不仅提供点预测,还提供关于这些预测的不确定性估计。一个好的模型意味着预测的均值(图中的点)接近 45 度线,置信区间覆盖 45 度线并且以期望的频率(这里我们使用 95%的置信区间,所以我们期望它们在真实观察中包含 95%的时间)。


from ax.modelbridge.cross_validation import compute_diagnostics, cross_validate
from ax.plot.diagnostic import interact_cross_validation_plotly
from ax.utils.notebook.plotting import init_notebook_plotting, render
cv = cross_validate(model=gs.model)  # The surrogate model is stored on the ``GenerationStrategy``


from ax.plot.contour import interact_contour_plotly
interact_contour_plotly(model=gs.model, metric_name="val_acc") 


interact_contour_plotly(model=gs.model, metric_name="num_params") 


我们感谢 TorchX 团队(特别是 Kiuk Chung 和 Tristan Rice)在将 TorchX 与 Ax 集成方面的帮助。

脚本的总运行时间:(14 分钟 44.258 秒)

下载 Python 源代码

下载 Jupyter 笔记本: ax_multiobjective_nas_tutorial.ipynb

Sphinx-Gallery 生成的画廊

