阿里云机器学习平台PAI论文入选国际顶会ASPLOS 2022-阿里云开发者社区

阿里云机器学习平台PAI论文入选国际顶会ASPLOS 2022

2022-03-01 1666

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近日，阿里云机器学习PAI主导的论文《机器学习访存密集计算编译优化框架AStitch》入选国际顶会ASPLOS 2022，论文通过编译优化的手段来自动化地提高机器学习任务的执行效率。此次入选意味着阿里云机器学习平台PAI自研的深度学习编译优化系统达到了全球业界先进水平，获得了国际学者的认可，展现了中国机器学习系统技术创新在国际上的竞争力。

近日，阿里云机器学习PAI主导的论文《机器学习访存密集计算编译优化框架AStitch》入选国际顶会ASPLOS 2022，论文通过编译优化的手段来自动化地提高机器学习任务的执行效率。此次入选意味着阿里云机器学习平台PAI自研的深度学习编译优化系统达到了全球业界先进水平，获得了国际学者的认可，展现了中国机器学习系统技术创新在国际上的竞争力。

ASPLOS是计算机系统领域的顶级国际会议，涉及体系结构、编程语言和操作系统等多个方向，尤其重视不同方向之间的交叉，该会议曾推动了多核处理器、虚拟化、RAID、RISC、深度学习处理器等计算机系统领域的核心创新，在学术和工业界都有巨大的影响力。

访存密集型的计算已经成为当今流行的机器学习模型的一个性能瓶颈；然而，业界先进的工作中（TVM、XLA等），由于其自动生成代码的能力有限，难以针对复杂的访存密集算子子图进行高效的代码生成。

针对这一问题，AStitch提出了一种大粒度计算融合的编译优化手段，通过计算图的依赖关系特性、GPU多层次存储架构上的数据局部性、以及不同数据尺寸之下的线程并发性等三个方面的联合考虑，自动化地为大粒度的复杂访存密集算子子图生成高效的GPU代码，从而大幅减少GPU kernel调用及框架层算子调度的额外开销，避免不必要的重复计算，大幅减少片外访存，同时适配各种数据尺寸以得到最佳并行效率。对比XLA，AStitch最高可以取得2.73倍的性能加速。