异构加速平台Heterogeneity-Aware Lowering and Optimization (HALO)简介

简介: HALO是异基于编译器的异构加速平台。它通过称为开放深度学习 API ( ODLA )的抽象、可扩展接口来利用针对深度学习领域的异构计算能力。HALO 提供统一的 Ahead-Of-Time 编译解决方案,自动为云、边缘和物联网场景量身定制。

Heterogeneity-Aware Lowering and Optimization (HALO)是异构计算加速度基于编译器的技术平台。

它通过称为开放深度学习 API ( ODLA )的抽象、可扩展接口来利用针对深度学习领域的异构计算能力。HALO 提供统一的 Ahead-Of-Time 编译解决方案,自动为云、边缘和物联网场景量身定制。

HALO 支持多种编译模式。在提前(AOT)编译模式下,HALO 将 AI 模型编译成用 ODLA API 编写的 C/C++ 代码。编译后的模型可以在具有相应 ODLA 运行时库的任何受支持平台上运行。此外,HALO 能够同时编译主机和异构设备代码。


下图为整体编译流程:

image.png

HALO 支持从以下框架编译模型:

  • 咖啡
  • ONNX
  • TensorFlow
  • TFLite

很快将支持更多框架。

HALO 通过其HgAI SDK支持 阿里巴巴的第一款 AI 推理芯片Hanguang-800 NPU。含光800 NPU由阿里巴巴集团旗下企业T-Head Semiconductor Co., Ltd.(又名PingTouGe)设计。

image.png

通过针对各种异构加速器/运行时的 ODLA 运行时库集支持广泛的 ODLA 生态系统:

我们欢迎新的加速器平台加入 ODLA 社区。

ODLA API 参考可以在这里找到 ,详细的编程指南即将推出...

伙伴

我们感谢以下合作伙伴对 ODLA 运行时的支持:

image.png

如何使用光环

要构建 HALO,请按照此处的说明进行操作。

使用 HALO 部署模型的工作流程包括:

  1. 使用 HALO 将模型文件编译为基于 ODLA 的 C/C++ 源文件。
  2. 使用 C/C++ 编译器将生成的 C/C++ 文件编译为目标文件。
  3. 将目标文件、权重二进制文件和特定的 ODLA 运行时库链接在一起。

一个简单的例子

让我们从一个基于TensorFlow Tutorial的 MNIST 的简单示例开始 。下图显示了整体工作流程:

image.png

简要说明:

HALO 生成 3 个文件:

  • mnist.h :应用程序要使用的头文件。
  • mnist.cc :代表模型的 ODLA C++ 文件。
  • mnist.bin : ELF 格式的权重。

对于应用程序,推理被简单地视为一个函数调用mnist()

请注意,出于可移植性的目的,即使输出文件 model.cc 是 C++ 格式,HALO 也始终以 C 约定导出函数。

更详细的解释可以在这里找到。示例代码可以在这里找到

有关所有命令行选项,请参阅HALO 选项列表

更多例子

贡献

我们一直在寻求帮助以改进 HALO。有关更多详细信息,请参阅贡献指南。谢谢!

资源

执照

HALO 在Apache 2.0 许可下获得许可


相关文章
|
2月前
|
人工智能 JSON 搜索推荐
社区供稿 | GLM-4适配ModelScope-Agent最佳实践
GLM-4是由智谱 AI 发布的新一代基座大模型。
|
2月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。
122. SAP ABAP 各种增强技术(Enhancement)概述 - 所谓第一代,第二代,第三代增强技术的出处是?
122. SAP ABAP 各种增强技术(Enhancement)概述 - 所谓第一代,第二代,第三代增强技术的出处是?
|
存储 Ubuntu Linux
【Matter】Matter 环境构建参考文档
【Matter】Matter 环境构建参考文档
289 0
|
机器学习/深度学习 搜索推荐 算法
AWS工程师辞职创建Tensor Search引擎,即插即用HuggingFace版CLIP模型
AWS工程师辞职创建Tensor Search引擎,即插即用HuggingFace版CLIP模型
131 0
|
调度 Perl 容器
开源工具GPU Sharing:支持Kubernetes集群细粒度
问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。
15636 0
|
机器学习/深度学习 编解码 算法
Paper之EfficientDet: 《Scalable and Efficient Object Detection—可扩展和高效的目标检测》的翻译及其解读—续篇
Paper之EfficientDet: 《Scalable and Efficient Object Detection—可扩展和高效的目标检测》的翻译及其解读—续篇
Paper之EfficientDet: 《Scalable and Efficient Object Detection—可扩展和高效的目标检测》的翻译及其解读—续篇
|
机器学习/深度学习 并行计算 算法
阿里开源 支持10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)
最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。同时做到了业内极致的低碳高效,使用512 GPU在10天内即训练出具有可用水平的10万亿模型。
|
机器学习/深度学习 分布式计算 并行计算
阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)
EPL背后的技术框架是如何设计的?开发者可以怎么使用EPL?EPL未来有哪些规划?今天一起来深入了解。
阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)
|
自然语言处理 数据挖掘 PyTorch
NLPer福利 清华推出Prompt-tuning开源工具包,取代传统的微调fine-tuning
NLPer福利 清华推出Prompt-tuning开源工具包,取代传统的微调fine-tuning
775 0
NLPer福利 清华推出Prompt-tuning开源工具包,取代传统的微调fine-tuning