来源:阿里巴巴基础设施 阿里云基础设施公众号
业界首个深度学习开放接口标准开源了!
9月18日,在刚刚结束的云栖大会上,阿里云智能研究员/基础设施首席异构计算科学家张伟丰博士宣布对行业开源业界首个深度学习开放接口标准ODLA(Open Deep Learning API, 面向深度学习的开放接口,以下同)。
演讲视频链接(请扫以下二维码选择“大规模高扩展异构计算池化技术”)
张伟丰博士在云栖大会上宣布开源ODLA
ODLA是业界首个面向深度学习的异构硬件统一API标准
在今年上半年的2020 OCP 全球峰会上,张伟丰博士公开了阿里云定义的ODLA接口标准,这是业界首个面向深度学习的异构硬件统一API标准,此次开源为行业标准化共建更进了一步。
ODLA是一个为加速深度学习的统一异构硬件编程接口。ODLA规范了深度学习计算任务的定义和执行,实现上层应用和底层异构硬件平台的解耦,让AI异构计算更简单,实践代码“生成一次,随时链接,随处执行”(generate once, link anytime and run anywhere)的愿景。
张伟丰博士在2020 OCP 全球峰会上公布ODLA接口标准
AI的蓬勃发展,不断促进应用和技术创新,也带来新的挑战。AI应用越来越大的算力需求,让AI加速硬件迎来了黄金时代,涌现了各种Domain-Specific(领域专用) 的AI加速硬件。目前市面上已经有十余种AI加速硬件(新兴AI芯片持续涌现中)及其配套的SDK接口,由于缺少统一的异构硬件接口标准,AI应用开发者需要学习掌握多种硬件特性和相应的代码优化适配技术,同时AI芯片厂商也面临针对不同框架的适配以及不同算法的定制开发,从而导致双方在时间和资源上进行大量的重复投入。
虽然业界在软硬件解耦上都进行了积极的探索,如AI框架层插件方式(如下图所示),但是这样的方案需要为每一种硬件设备开发一层厚重的插件,具有明显的不足,比如(1)硬件耦合性太紧,为不同硬件开发的后端代码不能复用;(2)开发难度较大,需专业掌握各种硬件的SDK接口;(3)更新和维护成本比较高,一旦AI加速硬件的SDK更新或调整,后端相关的接口调用也需做相应的升级。
异构AI加速硬件业界现有对接方案
ODLA是轻量高效的异构硬件统一接口标准
为了解决前述问题,让AI应用在异构硬件之间进行快速的平滑切换,阿里云开发了业界首个面向深度学习的异构硬件统一API标准ODLA(如下图所示),在AI框架层和异构AI加速硬件间定义一套多模态API接口标准,进行软硬件解耦,让AI上层应用软件和底层硬件彼此独立开发演进,并极大提升开发和部署效率。
基于ODLA的异构AI硬件对接方案
ODLA主要特性及优势
- 透明接口层,零损耗。
- 接口抽象和统一,软硬件解耦:通过面向AI的多粒度算子抽象,定义统一的接口,解耦具体软硬件,平滑迁移业务;实现代码复用,提升开发和部署效率。
- 多模态执行方式:支持多种执行模式,覆盖解释执行、编译执行、载入预编译代码等场景,兼容各种硬件的运行模式。
- AI全场景支持:支持推理和训练,适配云、边、端全场景AI业务;拥有广泛的算子定义和丰富的接口(设备管理、会话管理、执行管理、事件同步/异步、资源查询、性能监控等)。
- 卓越的扩展性,支持AI芯片厂家独特属性和自定义算子。
一个好的标准不仅依赖技术能力和前瞻性判断,更需要结合场景打磨和应用效果验证。正如演讲材料中提到的,ODLA是在阿里云异构计算编译框架基础上,经过阿里巴巴丰富的应用场景、强大的算法技术和多种异构AI加速硬件应用经验中不断地总结和提炼出来的,是轻量高效的异构硬件统一接口标准。
阿里巴巴已经在多种主流AI加速硬件进行ODLA的落地实践,实践效果证明:通过ODLA,在不同硬件上技术适配和应用部署的工作量可以从原来的数十人月缩短到数人月,提升10倍效率。另外,通过ODLA可以更好的与AI计算框架进行软硬协同,快速利用现有的编译优化技术,达到最佳性能。以下是某款AI加速硬件基于ODLA与阿里巴巴编译框架协同的性能优化对比:
某款AI加速硬件基于ODLA方案的性能对比
ODLA让AI异构计算更简单,推进AI算力的通用化和普惠
阿里云不断进行基础设施技术创新和前沿科技突破,为云计算、人工智能等提供先进的基础设施。这些创新不仅通过阿里云直接普惠广大用户,也共同推进了行业技术进步。此前阿里云已将多个服务器领域的技术成果开放,如存储领域的OpenChannel SSD(AOC SSD)规范、云数据中心服务器技术标准方升开放项目、基础架构重构的浸没式液冷技术等。ODLA是在AI异构计算领域的异构加速硬件接口的开放,旨在推动该领域建立统一的接口标准和生态,让AI异构计算更简单,降低AI应用在新AI加速硬件的开发门槛,推进AI算力的通用化和普惠。
阿里云已经发布了第一版ODLA,目前已经获得多种主流AI硬件支持, 更多的合作生态还在持续扩大中。欢迎更多的技术伙伴参与ODLA共建!