1. Automatic Mixed Precision examples
2. Autograd mechanics
原文档
2.1 Excluding subgraphs from backward
Tensor属性requires_grad。
Tensor生成时requires_grad一般默认为False。
在计算图中,只有所有叶节点的requires_grad都是False时,整个树才不计算梯度。
在需要冻结部分模型或者确知某些参数不需要计算梯度时可以设置requires_grad为False,比如使用预训练模型时可以冻结其他参数、只计算仿射层参数的梯度并更新参数,输出也需要梯度。
示例代码:
model = torchvision.models.resnet18(pretrained=True) for param in model.parameters(): param.requires_grad = False # Replace the last fully-connected layer # Parameters of newly constructed modules have requires_grad=True by default model.fc = nn.Linear(512, 100) # Optimize only the classifier optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)
注意示例代码中注释说新构建的网络层参数会默认设置requires_grad为True,因此在真实实验中整个网络的参数往往是需要计算梯度的,所以训练时可以正常使用优化器,而在验证和测试时需要冻结参数
3. Broadcasting semantics
4. CPU threading and TorchScript inference
5. CUDA semantics
6. Distributed Data Parallel
7. Extending PyTorch
7.1 Extending torch.autograd
7.2 Extending torch.nn
7.3 Extending torch
7.4 Writing custom C++ extensions
7.5 Writing custom C extensions
8. Frequently Asked Questions
9. Features for large-scale deployments
10. Modules
11. Multiprocessing best practices
12. Reproducibility可复现性
12.1 Controlling sources of randomness
12.1.1 PyTorch random number generator
示例代码:
import torch torch.manual_seed(0)
12.1.2 Python
示例代码:
inport random random.seed(0)
12.1.3 Random number generators in other libraries
NumPy示例代码:
import numpy as np np.random.seed(0)
注意,有些应用和库要用到NumPy Random Generator object而不是这个global RNG,总之情况还挺复杂。
12.1.4 CUDA convolution benchmarking
使用torch.backends.cudnn.benchmark = False来禁用这个过程,可能会使结果变差。