在python中使用SageMaker Debugger进行机器学习模型的开发调试(二)

简介: 在python中使用SageMaker Debugger进行机器学习模型的开发调试

机器学习调试涉及到哪些操作?

一个好的机器学习调试工具或方法应该具备的主要功能如下:

  1. 捕获(capture)

能够捕获模型和优化器的有关参数和指标数据。开发人员能够指定数据采集频率,并对调试数据进行后处理操作。

  1. 反应(react)

能够监视捕获数据中的变更并作出反应。开发人员能够指定模型在满足条件(如:梯度消失、过拟合)时停止训练。

  1. 分析(analyze)

能够允许使用者在模型训练期间实时分析捕获的数据。开发人员能够对捕获的数据进行脱机分析。

使用 Amazon SageMaker Debugger 进行机器学习模型的开发调试

Amazon SageMaker Debugger 使得开发人员能够监测模型训练情况,实现针对训练阶段的模型参数的监测、记录、分析。可以通过以下两种途径使用 Amazon SageMaker Debugger:

  1. Amazon SageMaker managed training 方式

当使用 Amazon Sagemaker 训练模型时,将自动启用 Amazon SageMaker Debugger。并且不需要对训练脚本进行任何更改,只需指定要监视的问题,它就会自动运行监视,可以捕获梯度消失、过拟合等问题。还可以在训练期间记录张量,并将其保存在 Amazon S3中,以便进行实时或离线分析。

  1. smdebug 开源库方式

可以在 TensorFlow、Keras、PyTorch、MXNet或XGBoost 等编写的训练代码中加入 smdebug 开源库相关代码,以进行调试。

具体地,Amazon SageMaker debugger 的 capture、react、analyze 使用方法如下:

通过 debugger hooks 获得调试数据

机器学习训练中的大部分代码都是为了实现对于模型参数的优化。通过优化算法,对比预测值和真实值、计算梯度、更新权重。通常涉及到百万数量级的权重参数和偏差参数。

640.png

为了在训练阶段捕获重要信息,Amazon SageMaker Debugger 自动将 Hooks 添加到 TensorFlow、Keras、PyTorch、MXNet或XGBoost代码中。当指定SageMaker Debugger Hook 时,可以针对性地保存重要数据和信息。Amazon SageMaker Debugger 提供一个预定义的张量列表,可以通过这个列表保存权重、偏差、梯度、损失、优化器变量等参数。也可以通过声明 regex 字符串指定需要捕获的模型特定层中的特定张量。

在 Amazon SageMaker 使用 Hooks

如果使用Amazon SageMaker 进行模型训练,则会自动配置Amazon SageMaker Debugger,无需更改训练代码主体。只需要声明如下内容:

from sagemaker.debugger import Rule, DebuggerHookConfig
debugger_hook_config = DebuggerHookConfig(
                         hook_parameters={"save_interval": '100'},
                               collection_configs=[
                               CollectionConfig("losses"),
                               CollectionConfig("weights"),
                               CollectionConfig("gradients"),
                               CollectionConfig("biases")]
                            )

通过上述代码,Hook 将间隔100步自动存储 losses、weights、gradients、biases等参数。当然,也可以指定采样起止步数。

当调用SageMaker TensorFlow estimator 时,通过 Amazon SageMaker Python SDK将 Hook 传递给 debugger_Hook_config参数。代码如下:

tf_estimator = TensorFlow(entry_point = 'tf-training-script.py',
                        ...
                        ...
                 debugger_hook_config = debugger_hook_config)

本地环境下通过 smdebug 开源库使用 Hooks

当在个人电脑中进行模型训练或者 Amazon SageMaker 未能够自动配置 Hooks 时,可以使用smdebug库手动配置。以 Keras 和 PyTorch 为例:

在 Keras 代码中使用 Hook
import smdebug.tensorflow as smd
job_name = 'tf-debug-job'
hook = smd.KerasHook(out_dir=f'./smd_outputs/{job_name}',
                   tensorboard_dir=f'./tb_logs/{job_name}',
                   save_config=smd.SaveConfig(save_interval=1),
                   include_collections=['gradients', 'biases'])
opt = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9, name='SGD')
opt = hook.wrap_optimizer(opt)

通过上述代码,首先导入smdebug包,然后实例化 KerasHook。通过 KerasHook 保存梯度和偏差张量至 out_dir,保存 TensorBoard 日志到tensorboard_dir

在 PyTorch 代码中使用 Hook
import smdebug.pytorch as smd
net = get_network()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
job_name = 'pytorch-debug-job'
hook = smd.Hook(out_dir=f'./smd_outputs/{job_name}',
              save_config=smd.SaveConfig(save_interval=10),
              include_collections=['gradients', 'biases'])
hook.register_module(net)
hook.register_loss(criterion)

通过上述代码,首先导入smdebug包,然后实例化 Hook,最后将 hook 添加到神经网络中。除了对优化函数使用 hook,也可以对损失函数使用 hook。

此外,可以通过 hook.record_tensor_value来记录指定的张量数据。

for epoch in range(10):
   running_loss = 0.0
   for i, data in enumerate(trainloader, 0):
       inputs, labels = data[0].to(device), data[1].to(device)
       optimizer.zero_grad()
       outputs = net(inputs)
       loss = criterion(outputs, labels)
       # Use hook to record tensors
       hook.record_tensor_value(tensor_name="loss", tensor_value=loss)
       loss.backward()
       optimizer.step()

使用 debugger rules 对调试数据变更做出反应

如果只是单纯的对数据进行采样记录,并不能很好的实现调试工作。真正意义上实现调试,要求在训练阶段能够实时的做出反应。因此引入 debugger rules,对代码运行过程中的某一条件进行监测,当条件发生改变时做出停止训练、发生通知等操作。

Amazon SageMaker Debugger 内置了部分常用的条件判断函数:死亡节点(dead relu)、张量爆炸(exploding tensor)、权重初始化不良(poor weight initialization)、激活函数饱和(saturated activation)、梯度消失(vanishing gradient)、分类不平衡(calss imbalance)、过拟合等。如果想要自定义条件,可以通过smdebug库函数进一步编写。

如果使用Amazon SageMaker 进行模型训练,则会自动运行 debugger rules。当然也可以使用smdebug库在本地环境运行相关函数。

在 Amazon SageMaker 中使用 debugger rules

640.png

具体代码如下:

debug_rules = [
   Rule.sagemaker(rule_configs.overtraining()),
   Rule.sagemaker(rule_configs.overfit()),
   Rule.custom(name='MyCustomRule',
               image_uri='840043622174.dkr.ecr.us-east-2.amazonaws.com/sagemaker-debugger-rule-evaluator:latest',
               instance_type='ml.t3.medium',
               source='rules/my_custom_rule.py',
               rule_to_invoke='CustomGradientRule',
               volume_size_in_gb=30,
               rule_parameters={"threshold": "20.0"})
          ]

通过上述代码,添加了两个内置条件(overtraining,overfitting)和一个自定义条件(customGradientRule)。

编写自定义条件,需要声明需要调用的 SageMaker 资源(本例中为 t3.medium)。

在SageMaker framework estimator 函数(例如下面的TensorFlow estimator)中,可以将规则配置作为其中的 rules 参数。这将指示Amazon SageMaker不仅启动一个训练进程,还启动 rules 进程。

640.png

在本地环境中使用 debugger rules

下面的代码将演示如何定义一个名为CustomGradientRule的规则。通过该规则检查梯度的绝对平均值是否大于某个阈值,如果没有指定阈值,则阈值为10。

from smdebug.rules import Rule
class CustomGradientRule(Rule):
   def __init__(self, base_trial, threshold=10.0):
       super().__init__(base_trial)
       self.threshold = float(threshold)
   def invoke_at_step(self, step):
       for tname in self.base_trial.tensor_names(collection="gradients"):
           t = self.base_trial.tensor(tname)
           abs_mean = t.reduction_value(step, "mean", abs=True)
           if abs_mean > self.threshold:
               return True
       return False

为了调用该规则,需要创建一个rule_object:

from smdebug.rules import invoke_rule
from smdebug.trials import create_trial
trial = create_trial(path=’./smd_outputs/<JOB_NAME>)
rule_obj = CustomVanishingGradientRule(trial, threshold=0.0001)
invoke_rule(rule_obj, start_step=0, end_step=None)

使用 Amazon SageMaker Debugger 分析调试数据

使用hook可以在训练期间导出数据,如权重、梯度和其他数据;而 rule 允许在训练阶段监测模型条件是否改变,以便采取行动。在某些情况下,开发者只想分析原始数据并将其绘制出来,以找到尚不了解的问题。具体的可视化方法如下:

  1. 通过 Amazon SageMaker Studio 进行可视化

Amazon SageMaker Studio 建立在 Jupyter Notebook 之上,它集成了跟踪实验、在训练期间可视化性能曲线以及在实验中比较不同试验结果的功能。还可以通过选择 debugger hook 保存的数据值来调出自定义图表。

640.png

  1. 本地环境下使用 smdebug 库进行可视化

以如下代码为例:

hook = smd.Hook(out_dir=f'./smd_outputs/{job_name}',
              save_config=smd.SaveConfig(save_interval=10),
              include_collections=['gradients', 'biases'])

首先通过 Hook 存储 梯度和偏差。

import smdebug.pytorch as smd
trial = smd.create_trial(path=PATH_TO_S3_OR_LOCAL_DIR')

然后建立一个 trial,以便实时分析。

trial.tensor_names()

通过 tensor_names() 查询保存的张量:

[2020-03-30 06:02:17.108 ip-172-31-28-67:31414 INFO local_trial.py:35] Loading trial pytorch-exp03-30-05-53-52 at path ./smd_outputs/pytorch-exp03-30-05-53-52
[8]:
['CrossEntropyLoss_output_0',
'Net_conv1.bias',
'Net_conv2.bias',
'Net_fc1.bias',
'Net_fc2.bias',
'Net_fc3.bias',
'gradient/Net_conv1.bias',
'gradient/Net_conv1.weight',
'gradient/Net_conv2.bias',
'gradient/Net_conv2.weight',
'gradient/Net_fc1.bias',
'gradient/Net_fc1.weight',
'gradient/Net_fc2.bias',
'gradient/Net_fc2.weight',
'gradient/Net_fc3.bias',
'gradient/Net_fc3.weight',
'loss_output_0']

通过 trail.tensor().values() 查询所有数据:

640.png

注意到梯度每10步保存一次,这是我们在 hook 中预先指定的。通过在循环中运行上述命令来查询最近的值,可以在训练期间检索张量。这样,可以绘制性能曲线,或在训练过程中可视化权重的变化。

640.png

Amazon SageMaker Debugger 工作流程

640.png

  1. 使用SageMaker Python SDK和各框架(TensorFlow、PyTorch等)开始Amazon SageMaker 上的深度学习训练任务。
  2. Amazon SageMaker在指定数量的CPU或GPU上启动训练进程。同时SageMaker启动 rule 进程以监控训练过程。
  3. 使用debug Hook config,Amazon SageMaker把权重、偏差和其他张量保存到指定的S3位置。
  4. 在 Hook 采集数据的基础上, rule 进程执行指定的条件监控。
  5. 当指定的条件发生状态变化,采取停止训练、发生通知等行动。
  6. 可以使用smdebug库来创建 trial 对象。trail对象可用于查询张量,以便于执行实时或脱机分析及可视化。

总结

调试是一项具有挑战性的工作,本文中讨论了机器学习开发调试和普通软件开发调试的差异,并且给出了通过 Amazon SageMaker Debugger 进行调试的办法。

而使用Amazon SageMaker Debugger的三种途径如下:

  1. 通过在 Amazon SageMaker 全托管服务平台使用,将免去手动配置等操作。
  2. 通过 smdebug开源库在个人电脑等本地环境使用,需要进行一定的手动配置。
  3. 可以通过 Amazon SageMaker 进行模型训练,通过本地环境执行 rules 对调试数据进行可视化分析。
目录
相关文章
|
4月前
|
API C++ 开发者
PySide vs PyQt:Python GUI开发史诗级对决,谁才是王者?
PySide 和 PyQt 是 Python GUI 开发领域的两大利器,各有特色。PySide 采用 LGPL 协议,更灵活;PyQt 默认 GPL,商业使用需授权。两者背后团队实力雄厚,PySide 得到 Qt 官方支持,PyQt 由 Riverbank Computing 打造。API 设计上,PySide 简洁直观,贴近原生 Qt;PyQt 增加 Pythonic 接口,操作更高效。性能方面,两者表现优异,适合不同需求的项目开发。选择时可根据项目特点与开源要求决定。
309 20
|
3月前
|
存储 机器学习/深度学习 人工智能
稀疏矩阵存储模型比较与在Python中的实现方法探讨
本文探讨了稀疏矩阵的压缩存储模型及其在Python中的实现方法,涵盖COO、CSR、CSC等常见格式。通过`scipy.sparse`等工具,分析了稀疏矩阵在高效运算中的应用,如矩阵乘法和图结构分析。文章还结合实际场景(推荐系统、自然语言处理等),提供了优化建议及性能评估,并展望了稀疏计算与AI硬件协同的未来趋势。掌握稀疏矩阵技术,可显著提升大规模数据处理效率,为工程实践带来重要价值。
153 58
|
20天前
|
机器学习/深度学习 算法 调度
【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】(Python代码实现)
【切负荷】计及切负荷和直流潮流(DC-OPF)风-火-储经济调度模型研究【IEEE24节点】(Python代码实现)
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
200行python代码实现从Bigram模型到LLM
本文从零基础出发,逐步实现了一个类似GPT的Transformer模型。首先通过Bigram模型生成诗词,接着加入Positional Encoding实现位置信息编码,再引入Single Head Self-Attention机制计算token间的关系,并扩展到Multi-Head Self-Attention以增强表现力。随后添加FeedForward、Block结构、残差连接(Residual Connection)、投影(Projection)、层归一化(Layer Normalization)及Dropout等组件,最终调整超参数完成一个6层、6头、384维度的“0.0155B”模型
192 11
200行python代码实现从Bigram模型到LLM
|
2月前
|
数据采集 存储 数据库
Python爬虫开发:Cookie池与定期清除的代码实现
Python爬虫开发:Cookie池与定期清除的代码实现
|
3月前
|
人工智能 搜索推荐 数据可视化
用 Python 制作简单小游戏教程:手把手教你开发猜数字游戏
本教程详细讲解了用Python实现经典猜数字游戏的完整流程,涵盖从基础规则到高级功能的全方位开发。内容包括游戏逻辑设计、输入验证与错误处理、猜测次数统计、难度选择、彩色输出等核心功能,并提供完整代码示例。同时,介绍了开发环境搭建及调试方法,帮助初学者快速上手。最后还提出了图形界面、网络对战、成就系统等扩展方向,鼓励读者自主创新,打造个性化游戏版本。适合Python入门者实践与进阶学习。
234 1
|
3月前
|
存储 算法 数据可视化
用Python开发猜数字游戏:从零开始的手把手教程
猜数字游戏是编程入门经典项目,涵盖变量、循环、条件判断等核心概念。玩家通过输入猜测电脑生成的随机数,程序给出提示直至猜中。项目从基础实现到功能扩展,逐步提升难度,适合各阶段Python学习者。
141 0
|
5月前
|
程序员 测试技术 开发工具
怎么开发Python第三方库?手把手教你参与开源项目!
大家好,我是程序员晚枫。本文将分享如何开发Python第三方库,并以我维护的开源项目 **popdf** 为例,指导参与开源贡献。Popdf是一个PDF操作库,支持PDF转Word、转图片、合并与加密等功能。文章涵盖从fork项目、本地开发、单元测试到提交PR的全流程,适合想了解开源贡献的开发者。欢迎访问[popdf](https://gitcode.com/python4office/popdf),一起交流学习!
192 21
怎么开发Python第三方库?手把手教你参与开源项目!
|
3月前
|
数据采集 存储 监控
抖音直播间采集提取工具,直播间匿名截流获客软件,Python开发【仅供学习】
这是一套基于Python开发的抖音直播间数据采集与分析系统,包含观众信息获取、弹幕监控及数据存储等功能。代码采用requests、websockets和sqlite3等...
|
4月前
|
机器学习/深度学习 人工智能 算法
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
本文介绍了如何使用 Python 和 YOLO v8 开发专属的 AI 视觉目标检测模型。首先讲解了 YOLO 的基本概念及其高效精准的特点,接着详细说明了环境搭建步骤,包括安装 Python、PyCharm 和 Ultralytics 库。随后引导读者加载预训练模型进行图片验证,并准备数据集以训练自定义模型。最后,展示了如何验证训练好的模型并提供示例代码。通过本文,你将学会从零开始打造自己的目标检测系统,满足实际场景需求。
2141 0
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型

推荐镜像

更多