手把手教你学会深度学习框架 — PyTorch

简介: PyTorch是一个基于Python语言的深度学习框架,专门针对 GPU 加速的深度神经网络(DNN)的程序开发。基本上,它所有的程序都是用python写的,这就使得它的源码看上去比较简洁,在机器学习领域中有广泛的应用。

PyTorch是一个灵活的深度学习框架,它允许通过动态神经网络(即if条件语句和while循环语句那样利用动态控制流的网络)自动分化。它支持GPU加速、分布式训练、多种优化以及更多的、更简洁的特性。

神经网络是计算图形的一个子类。计算图形接收输入数据,并且数据被路由到那些可能由对数据进行处理的节点进行转换。在深度学习中,神经网络中的神经元通常用参数和可微函数进行数据变换,从而可以通过梯度下降来优化参数以最大程度的减少损失。更广泛来说,函数可以是随机的,并且图形的结构可以是动态的。因此,虽然神经网络可以很好地适合数据流开发,但是PyTorchAPI却围绕着命令行式的编程,这是一种更常见的考虑程序的方式。这使得读取复杂程序的代码和理由变得更容易,而不必浪费大量的性能;PyTorch实际上运行的速度相当快,并带有很多优化,你可以放心地忘记你是个最终用户。

该文件的其余部分是基于官方的MNIST示例,并且应该仅仅是在学习了官方初级教程之后再看。为了提高可读性,代码放在了带有注释的区块中,因此不会被分割成不同的函数或者是文件,因为通常要用于清晰的、模块化的代码。

66fa11a606ed15b859029f3aeb735f66d31fc244 

这些是非常标准的程序或者是包导入代码,特别是用于解决计算机视觉问题的视觉模块:

92099746c1d2b453281c795c0bf54ae80a547822 

argparse是一种处理在Python中命令行参数的标准方法。

它是一种编写与设备无关的代码的好方法(在可用时受益于GPU加速,但当不可用时则返回到CPU)是选择并保存适当的torch.device,它可以用来决定应该存储张量的位置。更多资料请参阅官方文档PyTorch方法是将设备放置在用户的控制之下,这对于简单的例子来说可能看起来是件讨厌的事情,但是它使得更容易计算出张量的位置是对调试有用还是使得手动使用设备变得高效。

对于可重复的实验,有必要为任何使用随机数生成的进行随机种子设置。注意,cuDNN使用非确定性算法,并且可以使用torch.backends.cudnn.enabled = False来进行禁用。

3bf0b4fb3836278e8c966ad628cfdcaa9f0cbcdf 

由于torchvision模型在~/.torch/models/下面进行保存的,我在~/.torch/datasets保存torchvision数据集。通常来说,如果结束重用几个数据集,那么将数据集与代码分离开来存放是非常值得的。torchvision.transforms包含很多给单个图片的方便转换的功能,如修剪和正常化。

DataLoader含有许多可选方案,但是在batch_sizeshuffle参数之外,num_workerspin_memory对于效率也是值得了解一下的。num_workers > 0使用了子进程来进行异步加载数据,而不是在这个过程中使用主进程块。pin_memory使用pinned RAM来加速RAM到GPU的传输。

19b42e745ac38dfaefa5fc1cdfa6154ac1cf3708 

网络初始化通常包括一些成员变量和可训练参数的层,以及可能分开的可训练参数和不可训练的缓冲器。前向传递之后,使用那些来自纯函数F的函数(不包含参数)的结合。有些人倾向具有完全功能的网络(例如,保持参数分离和使用F.conv2d,而不是nn.Conv2d)或者是那些完全分层的网络(例如,nn.ReLU,而不是F.relu)。

.to(device)是将设备参数(和缓冲器)发送到GPU的简便方法,如果设备被设置为GPU,则不做任何操作(当设备被设置为CPU)时。在将网络参数传递给优化器之前,将它们传递给合适的设备是非常重要的,否则优化器将不会正确跟踪参数。

神经网络(nn.Module)和优化器(optim.Optimizer)都具有保存和加载其内部状态的能力,并且.load_state_dict(state_dict)是推荐这么做的方法,你将需要重新加载这两个状态以恢复之前保存的状态字典的训练。保存整个对象可能会容易出错。

这里没有指出的一些要点是,正向传递可以使用控制流,例如,成员变量,或者甚至数据本身可以决定if语句的执行。在中间打印出张量也是非常有效的,这会使调试变得更加容易。最后,前向传递可以使用多个参数。用一个简短的代码片段来说明这一点:

b904fff87fc632ddc151fa919b788d58acd9d250 

默认情况下,网络模块设置为训练模式—这影响了一些模块的运行效果,最明显的是流失和批量标准化。无论如何,最好通过.train()来进行手动设置参数,它将训练标志继承到所有的子模块。

在用loss.backward()收集一组新的梯度并用optimiser.step()进行反向传播之前,有必要手动地集中那些用优化器.zero_grad()优化过了参数的梯度。默认情况下,PyTorch逐渐增加梯度,这是非常方便的,尤其是当你没有足够的资源来计算所有你一次性需要的梯度的时候。

PyTorch使用基于磁带的自动梯度系统—它按一定的顺序收集对张量进行的操作,然后对它们进行重放以进行逆向模式求导。这就是为什么它是超级灵活的原因,并且允许任意的计算图形。如果张量中没有一个需要梯度(当构造张量时,你必须设置requires_grad=True),则不存储任何图形!然而,网络往往趋向那些具有需要梯度的参数,所以从一个网络的输出所做的任何计算都将存储在图形中。因此,如果要想存储由此产生的数据,那么你需要手动禁用梯度,或者更常见地,将其存储为Python数字(通过使用PyTorch标量上的.item())或numpy数组。请在autograd上参阅官方文档以了解更多信息。

切割计算图形的一种方法是使用.detach(),当通过截断反向传播时间来训练RNNs时,可以使用这个方法来隐藏状态。当一个成分是另一个网络的输出时,它也很方便的区分一个损耗,但是这个网络不应该在损失方面被优化 — 例如在GAN训练中从生成器的输出中训练一个鉴别器,或者使用值函数作为基线(例如A2C)的算法训练一个演员评论算法的策略,另一种防止梯度计算的技术在GAN训练中是有效的(训练来自鉴别器的生成器),以及通常在微调中是通过网络参数并设置param.requires_grad = False进行循环。

除了在控制台或者在日志文件中的日志记录结果外,检查点模型参数(和优化器状态)是非常重要的,用于以防万一。你还可以使用torch.save()来保存普通的Python对象,但其它标准选择包括在内置的配置中。

b404d3d3c2c65eca79134535c9a7eb557236cd37 

其他:

CUDA调试错误,通常是逻辑问题,会在CPU上产生更明白易懂的错误消息。如果你正在计划使用GPU,最好的方式是能在CPU和GPU之间轻松地切换。一个更普遍的开发技巧是能够设置你的代码,以便在启动一个合适的工作任务之前快速运行所有的逻辑来检查代码—示例是准备一个小的、合成的数据集,运行一个训练、测试周期等等。如果是一个CUDA错误,或者你真的不能切换到CPU模式,那么设置CUDA_LAUNCH_BLOCKING=1将使CUDA内核同步启动,从而会提供更清楚明确的错误消息。

对于torch.multiprocessing的记录,甚至只是一次性运行多个PyTorch脚本。因为PyTorch使用多线程的BLAS库来加速CPU上的线性代数运算,因此它通常会使用多个内核。如果想同时使用多个处理进程或者多个脚本来运行多个程序,那么你可以手动地通过将环境变量OMP_NUM_THREADS设置为1或另一个小的数字参数来实现—这减少了CPU大幅震动的机会。官方文档中有特别用于多处理技术的注释。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《PyTorch - The Hitchiker's Guide to PyTorch' by Kai Arulkumaran GitHub:》

作者: Alberto Artasanchez

译者:奥特曼,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
22天前
|
机器学习/深度学习 人工智能 PyTorch
【深度学习】使用PyTorch构建神经网络:深度学习实战指南
PyTorch是一个开源的Python机器学习库,特别专注于深度学习领域。它由Facebook的AI研究团队开发并维护,因其灵活的架构、动态计算图以及在科研和工业界的广泛支持而受到青睐。PyTorch提供了强大的GPU加速能力,使得在处理大规模数据集和复杂模型时效率极高。
150 59
|
3天前
|
机器学习/深度学习 人工智能 PyTorch
深度学习领域中pytorch、onnx和ncnn的关系
PyTorch、ONNX 和 NCNN 是深度学习领域中的三个重要工具或框架,它们在模型开发、转换和部署过程中扮演着不同但相互关联的角色。
20 11
|
11天前
|
机器学习/深度学习 边缘计算 PyTorch
PyTorch 与边缘计算:将深度学习模型部署到嵌入式设备
【8月更文第29天】随着物联网技术的发展,越来越多的数据处理任务开始在边缘设备上执行,以减少网络延迟、降低带宽成本并提高隐私保护水平。PyTorch 是一个广泛使用的深度学习框架,它不仅支持高效的模型训练,还提供了多种工具帮助开发者将模型部署到边缘设备。本文将探讨如何将PyTorch模型高效地部署到嵌入式设备上,并通过一个具体的示例来展示整个流程。
40 1
|
12天前
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化深度学习研究与开发
【8月更文第27天】PyTorch Lightning 是一个用于简化 PyTorch 开发流程的轻量级封装库。它的目标是让研究人员和开发者能够更加专注于算法和模型的设计,而不是被训练循环和各种低级细节所困扰。通过使用 PyTorch Lightning,开发者可以更容易地进行实验、调试和复现结果,从而加速研究与开发的过程。
23 1
|
12天前
|
机器学习/深度学习 并行计算 PyTorch
PyTorch与CUDA:加速深度学习模型训练的最佳实践
【8月更文第27天】随着深度学习应用的广泛普及,高效利用GPU硬件成为提升模型训练速度的关键。PyTorch 是一个强大的深度学习框架,它支持动态计算图,易于使用且高度灵活。CUDA (Compute Unified Device Architecture) 则是 NVIDIA 开发的一种并行计算平台和编程模型,允许开发者直接访问 GPU 的并行计算能力。本文将详细介绍如何利用 PyTorch 与 CUDA 的集成来加速深度学习模型的训练过程,并提供具体的代码示例。
30 1
|
26天前
|
机器学习/深度学习 PyTorch TensorFlow
【PyTorch】PyTorch深度学习框架实战(一):实现你的第一个DNN网络
【PyTorch】PyTorch深度学习框架实战(一):实现你的第一个DNN网络
70 1
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
【Deepin 20深度探索】一键解锁Linux深度学习潜能:从零开始安装Pytorch,驾驭AI未来从Deepin出发!
【8月更文挑战第2天】随着人工智能的迅猛发展,深度学习框架Pytorch已成为科研与工业界的必备工具。Deepin 20作为优秀的国产Linux发行版,凭借其流畅的用户体验和丰富的软件生态,为深度学习爱好者提供理想开发平台。本文引导您在Deepin 20上安装Pytorch,享受Linux下的深度学习之旅。
59 12
|
8天前
|
UED 开发者
哇塞!Uno Platform 数据绑定超全技巧大揭秘!从基础绑定到高级转换,优化性能让你的开发如虎添翼
【8月更文挑战第31天】在开发过程中,数据绑定是连接数据模型与用户界面的关键环节,可实现数据自动更新。Uno Platform 提供了简洁高效的数据绑定方式,使属性变化时 UI 自动同步更新。通过示例展示了基本绑定方法及使用 `Converter` 转换数据的高级技巧,如将年龄转换为格式化字符串。此外,还可利用 `BindingMode.OneTime` 提升性能。掌握这些技巧能显著提高开发效率并优化用户体验。
28 0
|
8天前
|
机器学习/深度学习 PyTorch TensorFlow
深度学习框架之争:全面解析TensorFlow与PyTorch在功能、易用性和适用场景上的比较,帮助你选择最适合项目的框架
【8月更文挑战第31天】在深度学习领域,选择合适的框架至关重要。本文通过开发图像识别系统的案例,对比了TensorFlow和PyTorch两大主流框架。TensorFlow由Google开发,功能强大,支持多种设备,适合大型项目和工业部署;PyTorch则由Facebook推出,强调灵活性和速度,尤其适用于研究和快速原型开发。通过具体示例代码展示各自特点,并分析其适用场景,帮助读者根据项目需求和个人偏好做出明智选择。
19 0
|
11天前
|
机器学习/深度学习 分布式计算 PyTorch
构建可扩展的深度学习系统:PyTorch 与分布式计算
【8月更文第29天】随着数据量和模型复杂度的增加,单个GPU或CPU已无法满足大规模深度学习模型的训练需求。分布式计算提供了一种解决方案,能够有效地利用多台机器上的多个GPU进行并行训练,显著加快训练速度。本文将探讨如何使用PyTorch框架实现深度学习模型的分布式训练,并通过一个具体的示例展示整个过程。
23 0