升级4：飞天AI加速解决方案|学习笔记-阿里云开发者社区

升级4：飞天AI加速解决方案|学习笔记

2022-11-23 213

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： 快速学习升级4：飞天AI加速解决方案

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构：升级4：飞天AI加速解决方案】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/648/detail/10750

升级4：飞天AI加速解决方案

内容介绍：

一、架构升级4-飞天AI加速解决方案

二、客户案例

三、飞天AI加速解决方案-特色优势

四、飞天AI加速解决方案-客户收益

一、架构升级4-飞天AI加速解决方案

在应用层加入了图像识别的场景，视频识别场景，CTR 预估场景，自

然语言理解场景，语音识别场景；在调度这层加入 QBS 调度。

二、客户案例

1、客户案例一：大规模人脸识别

客户案例一是大规模人脸识别，把人脸识别数提高到上千万，千万级人脸分类是工业界一大难题，模型是InsightFace，框架是 MXNET，存储是并行文件系统 CPFS，CPFS 可以在云端提供一个并行文件，可以根据需求在云端拓展存储，拓展带宽以及 LPS 能力。所以在分布式训练时，非常适合用 CPFS 做分布式的存储，框架是可以通过FastGPU 或 QBS 搭建，自动构建出分布式训练框架来，他的加速引擎是 AIACC-MXNET，自动构建出很多 GPU 云服务器来做 Tensorflow 训练，CPFS 上只需要存一份数据，每台 GPU 就可以从 CPFS 上不同的 Batch 来做训练。

（1）客户案例1：大规模人脸识别-性能优化

优化方法扩展 AIACC 的接口支持 MXNET 分布式训练，扩展 AIACC 支持数据并行与模型并行的混合并行，上图是数据并行与模型并行的混合并行的图，最终将人脸识别能力提升到千万级人脸性能提升，在16张 GPU，性能提升56%；32张 GPU，性能提升到2.3倍；64张 GPU，性能提升到3.8倍，将训练时间从23小时缩短到6个小时。

2、客户案例二：CTR 预估

客户案例二是 CTR 预估，CTR 预估会根据网上用户的行为，用户的点击，停留时间，转发，点赞，评论等行为给用户提供千人千面的推荐，推荐内容，广告。数据量是千亿级别数据量，模型是 Wide&Deep，框架是 Tensorflow，配置是2xM40GPU卡，56vcpu·25Gb 网络，存储是文件系统 HDFS。

（1）客户案例二：CTR 预估性能优化结果

性能优化包括定位性能瓶颈，开始用户是使用 Tensorflow 运行的，上图绿色部分是 Tensorflow 的性能，随机器数增加，性能并没有得到相应的提升，性能瓶颈主要来自两个方面，IO、通信，优化IO性能做多线程读取，多缓存队列，优化通信性能，用 AIACC-Tensorflow 通信优化，性能提升，在4张GPU，性能提升3.5倍，64张GPU，性能提升8.5倍，128张 GPU，性能提升13.4倍，训练时间从67小时缩短到5小时。

3、客户案例三：NLP 自然语言理解

客户案例三是 NLP 自然语言理解，之前流行的模型是 Transformer，现在流行的模型是 Bert，框架是 Tensorflow，配置是8xP100GPU卡，56vcpu-25Gb 网络，存储是并行文件系统 CPFS。

（1）客户案例三：NLP自然语言理解性能优化结果

自然语言理解的模型是比较大的，包括 Bert 模型和 Transformer 模型，都是相当大的，在传输时对网络的压力非常高，在原始的 Tensorflow 的时候，单机8卡有一定的加速比，双机16卡，性能减小，因为通信时没有非常好的处理通讯性能。所以通过拓展AICC的接口支持 Bert、Transformer 模型开启编译优化。最终 Bert 模型1机8卡，性能提升到2倍，2机16卡，性能提升到4.8倍，训练时间从48小时缩短到10小时；Transformer 模型1机8卡，性能提升到1.5倍，2机16卡，性能提升到2.6倍，训练时间从24小时缩短到9小时。

三、飞天AI加速解决方案-特色优势

飞天AI加速解决方案-特色优势包括四大方面，多框架统─加速，用户在使用框架时，可以使用 AICC 做到无缝加速，基于 laaS 基础资源做性能极致优化，对 GPU 的计算，网络的通信都做了非常深入的优化，可以把 laaS 的 GPU 加速实例，网络通信能力充分发挥出来，基于laaS基础资源弹性伸缩，可以通过 FastGPU 做一键构建，也可以做到弹性伸缩，从而达到计算成本和效率的最优配比，轻量便捷，开源兼容，框架都是兼容的，用户使用，模型和算法基本不用做修改。只要用到 AICC 就能做到性能的提升，开源网址：https://github.com/aliyun/alibabacloud-aiacc-demo

四、飞天 AI 加速解决方案-客户收益

提升客户 Al 应用性能，提升 AI 算法研究的工作效率，之前需要5天训练的模型现在不到1小时就可完成，提升客户业务的竞争力，提升用户算法研发效率之后，就可以提升用户产品的竞争力，同时在用户在线推理的性能上，也可提升用户的吞吐量，节约用户单位访问的成本，降低客户使用计算资源的成本，训练和推理时都可降低用户的单位使用成本。