pytorch中非标量调用backward()的时候为什么要先进行sum操作-阿里云开发者社区

pytorch中非标量调用backward()的时候为什么要先进行sum操作

2023-12-10 433

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 在《动手学深度学习》第二版教程中，当y为非标量的时候，调用backward()函数时,为什么先要求和呢（即y.sum().backward()），估计很多读者有点懵，今天小编给大家说说我的理解。

在《动手学深度学习》第二版教程中，当y为非标量的时候，调用backward()函数时,为什么先要求和呢（即y.sum().backward()），估计很多读者有点懵，今天小编给大家说说我的理解。
一、导数
先说明一下向量的导数，假设y=f(x):
1、如果x是标量，y为标量，那么y对x的导数为标量。
2、如果x是标量，y为一维列向量，那么y对x的导数为1维列向量。此时可以转为两个标量函数分别求导，然后拼接。

3、如果x是1维行向量，y为标量，那么y对x的导数是1维行向量。

4、如果x是1维行向量，y为1维列向量，那么y对x的导数是2维矩阵。

二、backward()函数调用
2.1、当y为标量时
y=f(x),当y为标量时,可以直接调用y.backward()
1、假设x是标量，y为标量

2、假设x是1维行向量，y为标量

2.2、当y为向量时
当y为向量时，调用backward需要传入一个gradient参数。

所以y.sum().backward()等价于y.backward(torch.ones(len(x)))