在python中使用SageMaker Debugger进行机器学习模型的开发调试(二)-阿里云开发者社区

机器学习调试涉及到哪些操作？

一个好的机器学习调试工具或方法应该具备的主要功能如下：

捕获(capture)

能够捕获模型和优化器的有关参数和指标数据。开发人员能够指定数据采集频率，并对调试数据进行后处理操作。

反应(react)

能够监视捕获数据中的变更并作出反应。开发人员能够指定模型在满足条件（如：梯度消失、过拟合）时停止训练。

分析(analyze)

能够允许使用者在模型训练期间实时分析捕获的数据。开发人员能够对捕获的数据进行脱机分析。

使用 Amazon SageMaker Debugger 进行机器学习模型的开发调试

Amazon SageMaker Debugger 使得开发人员能够监测模型训练情况，实现针对训练阶段的模型参数的监测、记录、分析。可以通过以下两种途径使用 Amazon SageMaker Debugger：

Amazon SageMaker managed training 方式

当使用 Amazon Sagemaker 训练模型时，将自动启用 Amazon SageMaker Debugger。并且不需要对训练脚本进行任何更改，只需指定要监视的问题，它就会自动运行监视，可以捕获梯度消失、过拟合等问题。还可以在训练期间记录张量，并将其保存在 Amazon S3中，以便进行实时或离线分析。

smdebug 开源库方式

可以在 TensorFlow、Keras、PyTorch、MXNet或XGBoost 等编写的训练代码中加入 smdebug 开源库相关代码，以进行调试。

具体地，Amazon SageMaker debugger 的 capture、react、analyze 使用方法如下：

通过 debugger hooks 获得调试数据

机器学习训练中的大部分代码都是为了实现对于模型参数的优化。通过优化算法，对比预测值和真实值、计算梯度、更新权重。通常涉及到百万数量级的权重参数和偏差参数。

为了在训练阶段捕获重要信息，Amazon SageMaker Debugger 自动将 Hooks 添加到 TensorFlow、Keras、PyTorch、MXNet或XGBoost代码中。当指定SageMaker Debugger Hook 时，可以针对性地保存重要数据和信息。Amazon SageMaker Debugger 提供一个预定义的张量列表，可以通过这个列表保存权重、偏差、梯度、损失、优化器变量等参数。也可以通过声明 regex 字符串指定需要捕获的模型特定层中的特定张量。

在 Amazon SageMaker 使用 Hooks

如果使用Amazon SageMaker 进行模型训练，则会自动配置Amazon SageMaker Debugger，无需更改训练代码主体。只需要声明如下内容：

from sagemaker.debugger import Rule, DebuggerHookConfig
debugger_hook_config = DebuggerHookConfig(
                         hook_parameters={"save_interval": '100'},
                               collection_configs=[
                               CollectionConfig("losses"),
                               CollectionConfig("weights"),
                               CollectionConfig("gradients"),
                               CollectionConfig("biases")]
                            )

通过上述代码，Hook 将间隔100步自动存储 losses、weights、gradients、biases等参数。当然，也可以指定采样起止步数。

当调用SageMaker TensorFlow estimator 时，通过 Amazon SageMaker Python SDK将 Hook 传递给 debugger_Hook_config参数。代码如下：

tf_estimator = TensorFlow(entry_point = 'tf-training-script.py',
                        ...
                        ...
                 debugger_hook_config = debugger_hook_config)

本地环境下通过 `smdebug` 开源库使用 Hooks

当在个人电脑中进行模型训练或者 Amazon SageMaker 未能够自动配置 Hooks 时，可以使用smdebug库手动配置。以 Keras 和 PyTorch 为例：

在 Keras 代码中使用 Hook

import smdebug.tensorflow as smd
job_name = 'tf-debug-job'
hook = smd.KerasHook(out_dir=f'./smd_outputs/{job_name}',
                   tensorboard_dir=f'./tb_logs/{job_name}',
                   save_config=smd.SaveConfig(save_interval=1),
                   include_collections=['gradients', 'biases'])
opt = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9, name='SGD')
opt = hook.wrap_optimizer(opt)

通过上述代码，首先导入smdebug包，然后实例化 KerasHook。通过 KerasHook 保存梯度和偏差张量至 out_dir，保存 TensorBoard 日志到tensorboard_dir。

在 PyTorch 代码中使用 Hook

import smdebug.pytorch as smd
net = get_network()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
job_name = 'pytorch-debug-job'
hook = smd.Hook(out_dir=f'./smd_outputs/{job_name}',
              save_config=smd.SaveConfig(save_interval=10),
              include_collections=['gradients', 'biases'])
hook.register_module(net)
hook.register_loss(criterion)

通过上述代码，首先导入smdebug包，然后实例化 Hook，最后将 hook 添加到神经网络中。除了对优化函数使用 hook，也可以对损失函数使用 hook。

此外，可以通过 hook.record_tensor_value来记录指定的张量数据。

for epoch in range(10):
   running_loss = 0.0
   for i, data in enumerate(trainloader, 0):
       inputs, labels = data[0].to(device), data[1].to(device)
       optimizer.zero_grad()
       outputs = net(inputs)
       loss = criterion(outputs, labels)
       # Use hook to record tensors
       hook.record_tensor_value(tensor_name="loss", tensor_value=loss)
       loss.backward()
       optimizer.step()

使用 debugger rules 对调试数据变更做出反应

如果只是单纯的对数据进行采样记录，并不能很好的实现调试工作。真正意义上实现调试，要求在训练阶段能够实时的做出反应。因此引入 debugger rules，对代码运行过程中的某一条件进行监测，当条件发生改变时做出停止训练、发生通知等操作。

Amazon SageMaker Debugger 内置了部分常用的条件判断函数：死亡节点(dead relu)、张量爆炸(exploding tensor)、权重初始化不良(poor weight initialization)、激活函数饱和(saturated activation)、梯度消失(vanishing gradient)、分类不平衡(calss imbalance)、过拟合等。如果想要自定义条件，可以通过smdebug库函数进一步编写。

如果使用Amazon SageMaker 进行模型训练，则会自动运行 debugger rules。当然也可以使用smdebug库在本地环境运行相关函数。

在 Amazon SageMaker 中使用 debugger rules

具体代码如下：

debug_rules = [
   Rule.sagemaker(rule_configs.overtraining()),
   Rule.sagemaker(rule_configs.overfit()),
   Rule.custom(name='MyCustomRule',
               image_uri='840043622174.dkr.ecr.us-east-2.amazonaws.com/sagemaker-debugger-rule-evaluator:latest',
               instance_type='ml.t3.medium',
               source='rules/my_custom_rule.py',
               rule_to_invoke='CustomGradientRule',
               volume_size_in_gb=30,
               rule_parameters={"threshold": "20.0"})
          ]

通过上述代码，添加了两个内置条件(overtraining,overfitting)和一个自定义条件(customGradientRule)。

编写自定义条件，需要声明需要调用的 SageMaker 资源（本例中为 t3.medium）。

在SageMaker framework estimator 函数（例如下面的TensorFlow estimator）中，可以将规则配置作为其中的 rules 参数。这将指示Amazon SageMaker不仅启动一个训练进程，还启动 rules 进程。

在本地环境中使用 debugger rules

下面的代码将演示如何定义一个名为CustomGradientRule的规则。通过该规则检查梯度的绝对平均值是否大于某个阈值，如果没有指定阈值，则阈值为10。

from smdebug.rules import Rule
class CustomGradientRule(Rule):
   def __init__(self, base_trial, threshold=10.0):
       super().__init__(base_trial)
       self.threshold = float(threshold)
   def invoke_at_step(self, step):
       for tname in self.base_trial.tensor_names(collection="gradients"):
           t = self.base_trial.tensor(tname)
           abs_mean = t.reduction_value(step, "mean", abs=True)
           if abs_mean > self.threshold:
               return True
       return False

为了调用该规则，需要创建一个rule_object：

from smdebug.rules import invoke_rule
from smdebug.trials import create_trial
trial = create_trial(path=’./smd_outputs/<JOB_NAME>)
rule_obj = CustomVanishingGradientRule(trial, threshold=0.0001)
invoke_rule(rule_obj, start_step=0, end_step=None)

使用 Amazon SageMaker Debugger 分析调试数据

使用hook可以在训练期间导出数据，如权重、梯度和其他数据；而 rule 允许在训练阶段监测模型条件是否改变，以便采取行动。在某些情况下，开发者只想分析原始数据并将其绘制出来，以找到尚不了解的问题。具体的可视化方法如下：

通过 Amazon SageMaker Studio 进行可视化

Amazon SageMaker Studio 建立在 Jupyter Notebook 之上，它集成了跟踪实验、在训练期间可视化性能曲线以及在实验中比较不同试验结果的功能。还可以通过选择 debugger hook 保存的数据值来调出自定义图表。

本地环境下使用 smdebug 库进行可视化

以如下代码为例：

hook = smd.Hook(out_dir=f'./smd_outputs/{job_name}',
              save_config=smd.SaveConfig(save_interval=10),
              include_collections=['gradients', 'biases'])

首先通过 Hook 存储梯度和偏差。

import smdebug.pytorch as smd
trial = smd.create_trial(path=PATH_TO_S3_OR_LOCAL_DIR')

然后建立一个 trial，以便实时分析。

trial.tensor_names()

通过 tensor_names() 查询保存的张量：

[2020-03-30 06:02:17.108 ip-172-31-28-67:31414 INFO local_trial.py:35] Loading trial pytorch-exp03-30-05-53-52 at path ./smd_outputs/pytorch-exp03-30-05-53-52
[8]:
['CrossEntropyLoss_output_0',
'Net_conv1.bias',
'Net_conv2.bias',
'Net_fc1.bias',
'Net_fc2.bias',
'Net_fc3.bias',
'gradient/Net_conv1.bias',
'gradient/Net_conv1.weight',
'gradient/Net_conv2.bias',
'gradient/Net_conv2.weight',
'gradient/Net_fc1.bias',
'gradient/Net_fc1.weight',
'gradient/Net_fc2.bias',
'gradient/Net_fc2.weight',
'gradient/Net_fc3.bias',
'gradient/Net_fc3.weight',
'loss_output_0']

通过 trail.tensor().values() 查询所有数据：

注意到梯度每10步保存一次，这是我们在 hook 中预先指定的。通过在循环中运行上述命令来查询最近的值，可以在训练期间检索张量。这样，可以绘制性能曲线，或在训练过程中可视化权重的变化。

Amazon SageMaker Debugger 工作流程

使用SageMaker Python SDK和各框架（TensorFlow、PyTorch等）开始Amazon SageMaker 上的深度学习训练任务。
Amazon SageMaker在指定数量的CPU或GPU上启动训练进程。同时SageMaker启动 rule 进程以监控训练过程。
使用debug Hook config，Amazon SageMaker把权重、偏差和其他张量保存到指定的S3位置。
在 Hook 采集数据的基础上， rule 进程执行指定的条件监控。
当指定的条件发生状态变化，采取停止训练、发生通知等行动。
可以使用smdebug库来创建 trial 对象。trail对象可用于查询张量，以便于执行实时或脱机分析及可视化。

总结

调试是一项具有挑战性的工作，本文中讨论了机器学习开发调试和普通软件开发调试的差异，并且给出了通过 Amazon SageMaker Debugger 进行调试的办法。

而使用Amazon SageMaker Debugger的三种途径如下：

通过在 Amazon SageMaker 全托管服务平台使用，将免去手动配置等操作。
通过 smdebug开源库在个人电脑等本地环境使用，需要进行一定的手动配置。
可以通过 Amazon SageMaker 进行模型训练，通过本地环境执行 rules 对调试数据进行可视化分析。

在python中使用SageMaker Debugger进行机器学习模型的开发调试(二)

机器学习调试涉及到哪些操作？

使用 Amazon SageMaker Debugger 进行机器学习模型的开发调试

通过 debugger hooks 获得调试数据

在 Amazon SageMaker 使用 Hooks

本地环境下通过 `smdebug` 开源库使用 Hooks

在 Keras 代码中使用 Hook

在 PyTorch 代码中使用 Hook

使用 debugger rules 对调试数据变更做出反应

在 Amazon SageMaker 中使用 debugger rules

在本地环境中使用 debugger rules

使用 Amazon SageMaker Debugger 分析调试数据

Amazon SageMaker Debugger 工作流程

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

在python中使用SageMaker Debugger进行机器学习模型的开发调试(二)

机器学习调试涉及到哪些操作？

使用 Amazon SageMaker Debugger 进行机器学习模型的开发调试

通过 debugger hooks 获得调试数据

在 Amazon SageMaker 使用 Hooks

本地环境下通过 smdebug 开源库使用 Hooks

在 Keras 代码中使用 Hook

在 PyTorch 代码中使用 Hook

使用 debugger rules 对调试数据变更做出反应

在 Amazon SageMaker 中使用 debugger rules

在本地环境中使用 debugger rules

使用 Amazon SageMaker Debugger 分析调试数据

Amazon SageMaker Debugger 工作流程

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

本地环境下通过 `smdebug` 开源库使用 Hooks