升级4:飞天AI加速解决方案|学习笔记

简介: 快速学习升级4:飞天AI加速解决方案

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级4:飞天AI加速解决方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10750


升级4:飞天AI加速解决方案


内容介绍:

一、架构升级4-飞天AI加速解决方案

二、客户案例

三、飞天AI加速解决方案-特色优势

四、飞天AI加速解决方案-客户收益


一、架构升级4-飞天AI加速解决方案

在应用层加入了图像识别的场景,视频识别场景,CTR 预估场景,自

然语言理解场景,语音识别场景;在调度这层加入 QBS 调度。


二、客户案例

1、客户案例一:大规模人脸识别

1.png

客户案例一是大规模人脸识别,把人脸识别数提高到上千万,千万级人脸分类是工业界一大难题,模型是InsightFace,框架是 MXNET,存储是并行文件系统 CPFS,CPFS 可以在云端提供一个并行文件,可以根据需求在云端拓展存储,拓展带宽以及 LPS 能力。所以在分布式训练时,非常适合用 CPFS 做分布式的存储,框架是可以通过FastGPU 或 QBS 搭建,自动构建出分布式训练框架来,他的加速引擎是 AIACC-MXNET,自动构建出很多 GPU 云服务器来做 Tensorflow 训练,CPFS 上只需要存一份数据,每台 GPU 就可以从 CPFS 上不同的 Batch 来做训练。

(1)客户案例1:大规模人脸识别-性能优化

1.png

优化方法扩展 AIACC 的接口支持 MXNET 分布式训练,扩展 AIACC 支持数据并行与模型并行的混合并行,上图是数据并行与模型并行的混合并行的图,最终将人脸识别能力提升到千万级人脸性能提升,在16张 GPU,性能提升56%;32张 GPU,性能提升到2.3倍;64张 GPU,性能提升到3.8倍,将训练时间从23小时缩短到6个小时。

2、客户案例二:CTR 预估

1.png

客户案例二是 CTR 预估,CTR 预估会根据网上用户的行为,用户的点击,停留时间,转发,点赞,评论等行为给用户提供千人千面的推荐,推荐内容,广告。数据量是千亿级别数据量,模型是 Wide&Deep,框架是 Tensorflow,配置是2xM40GPU卡,56vcpu·25Gb 网络,存储是文件系统 HDFS。

(1)客户案例二:CTR 预估性能优化结果

1.png

性能优化包括定位性能瓶颈,开始用户是使用 Tensorflow 运行的,上图绿色部分是 Tensorflow 的性能,随机器数增加,性能并没有得到相应的提升,性能瓶颈主要来自两个方面,IO、通信,优化IO性能做多线程读取,多缓存队列,优化通信性能,用 AIACC-Tensorflow 通信优化,性能提升,在4张GPU,性能提升3.5倍,64张GPU,性能提升8.5倍,128张 GPU,性能提升13.4倍,训练时间从67小时缩短到5小时。

3、客户案例三:NLP 自然语言理解

1.png

客户案例三是 NLP 自然语言理解,之前流行的模型是 Transformer,现在流行的模型是 Bert,框架是 Tensorflow,配置是8xP100GPU卡,56vcpu-25Gb 网络,存储是并行文件系统 CPFS。

(1)客户案例三:NLP自然语言理解性能优化结果

1.png

自然语言理解的模型是比较大的,包括 Bert 模型和 Transformer 模型,都是相当大的,在传输时对网络的压力非常高,在原始的 Tensorflow 的时候,单机8卡有一定的加速比,双机16卡,性能减小,因为通信时没有非常好的处理通讯性能。所以通过拓展AICC的接口支持 Bert、Transformer 模型开启编译优化。最终 Bert 模型1机8卡,性能提升到2倍,2机16卡,性能提升到4.8倍,训练时间从48小时缩短到10小时;Transformer 模型1机8卡,性能提升到1.5倍,2机16卡,性能提升到2.6倍,训练时间从24小时缩短到9小时。


三、飞天AI加速解决方案-特色优势

飞天AI加速解决方案-特色优势包括四大方面,多框架统─加速,用户在使用框架时,可以使用 AICC 做到无缝加速,基于 laaS 基础资源做性能极致优化,对 GPU 的计算,网络的通信都做了非常深入的优化,可以把 laaS 的 GPU 加速实例,网络通信能力充分发挥出来,基于laaS基础资源弹性伸缩,可以通过 FastGPU 做一键构建,也可以做到弹性伸缩,从而达到计算成本和效率的最优配比,轻量便捷,开源兼容,框架都是兼容的,用户使用,模型和算法基本不用做修改。只要用到 AICC 就能做到性能的提升,开源网址:https://github.com/aliyun/alibabacloud-aiacc-demo


四、飞天 AI 加速解决方案-客户收益

提升客户 Al 应用性能,提升 AI 算法研究的工作效率,之前需要5天训练的模型现在不到1小时就可完成,提升客户业务的竞争力,提升用户算法研发效率之后,就可以提升用户产品的竞争力,同时在用户在线推理的性能上,也可提升用户的吞吐量,节约用户单位访问的成本,降低客户使用计算资源的成本,训练和推理时都可降低用户的单位使用成本。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
云知声蓝藻AI服务升级
【2月更文挑战第20天】云知声蓝藻AI服务升级
41 1
云知声蓝藻AI服务升级
|
3月前
|
人工智能 运维 关系型数据库
媒体声音|PolarDB再升级:欢迎来到云数据库 x AI新时代
让个人开发者和企业用户都可以像“搭积木”一样开发和管理数据库
媒体声音|PolarDB再升级:欢迎来到云数据库 x AI新时代
|
1月前
|
机器学习/深度学习 传感器 人工智能
山河光电品牌升级为山河元景,超表面光AI技术推动光学产业变革
随着科技的不断进步和创新,人类社会正迈入一个更加美好、智能化的时代。AI技术带来了全球格局的历史性巨变,继文本模型和图片模型后,文生视频模型的出现,再次引起广泛关注和多方震动;而同样作为前沿科技的超表面技术也日趋成熟,为光学新型器件和应用带来了无限可能,可预见的是,未来超表面技术将会在光学器件领域中扮演越来越重要的角色。
|
2月前
|
人工智能 自然语言处理 安全
产品更新|宜搭AI助理、精品应用产品力、专属宜搭多项功能升级!
本期功能更新已全量发布,可直接在宜搭内体验。
116 0
产品更新|宜搭AI助理、精品应用产品力、专属宜搭多项功能升级!
|
2月前
|
人工智能 Serverless API
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
|
2月前
|
人工智能 Cloud Native 搜索推荐
金融先锋联盟发布17份联合解决方案,首次聚焦AI应用场景探索
金融先锋联盟发布17份联合解决方案,首次聚焦AI应用场景探索
67 0
|
3月前
|
人工智能 Serverless API
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
7731 132
|
3月前
|
人工智能 Serverless API
AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
为了帮助用户高效率、低成本应对企业级复杂场景,函数计算团队正式推出 Stable Diffusion API Serverless 版解决方案,通过使用该方案,用户可以充分利用 Stable Diffusion +Serverless 技术优势快速开发上线 AI 绘画应用,期待为广大开发者 AI 绘画创业及变现提供思路。
87316 4
|
3月前
|
人工智能 Cloud Native 新金融
金融先锋联盟发布17份联合解决方案,首次聚焦AI应用场景探索
1月24日,2024金融先锋联盟高峰论坛在京举办,阿里云联合中科软、神州信息、恒生电子、长亮科技、中电金信、天阳科技、软通动力等13家伙伴共同发布17份解决方案,涵盖银证保领域核心系统云原生分布式改造,金融机构数据资产重构和AI应用场景探索。
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口