D-Interleaving和K-Interleaving是如何帮助解决硬件资源瓶颈的?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
D-Interleaving通过对训练数据batch的切分,利用pipeline机制调度穿插不同资源类型的算子,从而在任何训练阶段都能缓解某一种资源的瓶颈。而K-Interleaving则是在Embedding Layer内部不同特征查询路数之间做算子的穿插和遮掩,如将通信密集的Shuffle操作和内存访问密集的Gather进行遮掩,以提升资源使用率。