机器学习PAI现在带有all reduce 的算子是trace不出来的,结果会错,有办法绕过去吗? 如果只想融合下算子 ,除了aot autograd,还有其他方式吗?
如果是只是想测下 fusion,直接用就可以了,dynamo 在 trace 的时候会 break 掉 collective ops。 但社区已经在解决这个问题了,比如这个 RFC:https://github.com/pytorch/pytorch/issues/93173 ,以及这个 unit test:https://github.com/pytorch/pytorch/blob/main/test/distributed/test_inductor_collectives.py 。 ,此回答整理自钉群“BladeDISC用户支持群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。