升级4:飞天AI加速解决方案|学习笔记

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 快速学习升级4:飞天AI加速解决方案

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级4:飞天AI加速解决方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10750


升级4:飞天AI加速解决方案


内容介绍:

一、架构升级4-飞天AI加速解决方案

二、客户案例

三、飞天AI加速解决方案-特色优势

四、飞天AI加速解决方案-客户收益


一、架构升级4-飞天AI加速解决方案

在应用层加入了图像识别的场景,视频识别场景,CTR 预估场景,自

然语言理解场景,语音识别场景;在调度这层加入 QBS 调度。


二、客户案例

1、客户案例一:大规模人脸识别

1.png

客户案例一是大规模人脸识别,把人脸识别数提高到上千万,千万级人脸分类是工业界一大难题,模型是InsightFace,框架是 MXNET,存储是并行文件系统 CPFS,CPFS 可以在云端提供一个并行文件,可以根据需求在云端拓展存储,拓展带宽以及 LPS 能力。所以在分布式训练时,非常适合用 CPFS 做分布式的存储,框架是可以通过FastGPU 或 QBS 搭建,自动构建出分布式训练框架来,他的加速引擎是 AIACC-MXNET,自动构建出很多 GPU 云服务器来做 Tensorflow 训练,CPFS 上只需要存一份数据,每台 GPU 就可以从 CPFS 上不同的 Batch 来做训练。

(1)客户案例1:大规模人脸识别-性能优化

1.png

优化方法扩展 AIACC 的接口支持 MXNET 分布式训练,扩展 AIACC 支持数据并行与模型并行的混合并行,上图是数据并行与模型并行的混合并行的图,最终将人脸识别能力提升到千万级人脸性能提升,在16张 GPU,性能提升56%;32张 GPU,性能提升到2.3倍;64张 GPU,性能提升到3.8倍,将训练时间从23小时缩短到6个小时。

2、客户案例二:CTR 预估

1.png

客户案例二是 CTR 预估,CTR 预估会根据网上用户的行为,用户的点击,停留时间,转发,点赞,评论等行为给用户提供千人千面的推荐,推荐内容,广告。数据量是千亿级别数据量,模型是 Wide&Deep,框架是 Tensorflow,配置是2xM40GPU卡,56vcpu·25Gb 网络,存储是文件系统 HDFS。

(1)客户案例二:CTR 预估性能优化结果

1.png

性能优化包括定位性能瓶颈,开始用户是使用 Tensorflow 运行的,上图绿色部分是 Tensorflow 的性能,随机器数增加,性能并没有得到相应的提升,性能瓶颈主要来自两个方面,IO、通信,优化IO性能做多线程读取,多缓存队列,优化通信性能,用 AIACC-Tensorflow 通信优化,性能提升,在4张GPU,性能提升3.5倍,64张GPU,性能提升8.5倍,128张 GPU,性能提升13.4倍,训练时间从67小时缩短到5小时。

3、客户案例三:NLP 自然语言理解

1.png

客户案例三是 NLP 自然语言理解,之前流行的模型是 Transformer,现在流行的模型是 Bert,框架是 Tensorflow,配置是8xP100GPU卡,56vcpu-25Gb 网络,存储是并行文件系统 CPFS。

(1)客户案例三:NLP自然语言理解性能优化结果

1.png

自然语言理解的模型是比较大的,包括 Bert 模型和 Transformer 模型,都是相当大的,在传输时对网络的压力非常高,在原始的 Tensorflow 的时候,单机8卡有一定的加速比,双机16卡,性能减小,因为通信时没有非常好的处理通讯性能。所以通过拓展AICC的接口支持 Bert、Transformer 模型开启编译优化。最终 Bert 模型1机8卡,性能提升到2倍,2机16卡,性能提升到4.8倍,训练时间从48小时缩短到10小时;Transformer 模型1机8卡,性能提升到1.5倍,2机16卡,性能提升到2.6倍,训练时间从24小时缩短到9小时。


三、飞天AI加速解决方案-特色优势

飞天AI加速解决方案-特色优势包括四大方面,多框架统─加速,用户在使用框架时,可以使用 AICC 做到无缝加速,基于 laaS 基础资源做性能极致优化,对 GPU 的计算,网络的通信都做了非常深入的优化,可以把 laaS 的 GPU 加速实例,网络通信能力充分发挥出来,基于laaS基础资源弹性伸缩,可以通过 FastGPU 做一键构建,也可以做到弹性伸缩,从而达到计算成本和效率的最优配比,轻量便捷,开源兼容,框架都是兼容的,用户使用,模型和算法基本不用做修改。只要用到 AICC 就能做到性能的提升,开源网址:https://github.com/aliyun/alibabacloud-aiacc-demo


四、飞天 AI 加速解决方案-客户收益

提升客户 Al 应用性能,提升 AI 算法研究的工作效率,之前需要5天训练的模型现在不到1小时就可完成,提升客户业务的竞争力,提升用户算法研发效率之后,就可以提升用户产品的竞争力,同时在用户在线推理的性能上,也可提升用户的吞吐量,节约用户单位访问的成本,降低客户使用计算资源的成本,训练和推理时都可降低用户的单位使用成本。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
2月前
|
人工智能 安全 数据中心
|
2月前
|
存储 人工智能 NoSQL
阿里云表格存储 Tablestore 全面升级 AI 能力,存储成本直降 30%
近日,阿里云表格存储 Tablestore 宣布全面升级 AI 场景支持能力,正式推出 AI Agent 记忆存储功能,在保障高性能与高可用的同时,整体存储成本降低 30%,标志着 Tablestore 在构建 AI 数据处理和存储的技术内核能力上,迈出关键一步。
202 5
|
8天前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
12天前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
249 14
|
23天前
|
机器学习/深度学习 人工智能 边缘计算
AI 奶茶店吸管监测识别解决方案技术开发说明
本方案针对奶茶店打包环节中吸管与奶茶数量不匹配问题,采用AI视觉识别技术,实现自动化精准监测。
52 0
|
13天前
|
人工智能 监控 算法
AI解决方案的决策工具
企业正借助AI实现精细化“微观决策”,需在自动化与人工干预间找到平衡。本文提出HITL、HITLFE、HOTL、HOOTL四种管理模型,指导如何设计人机协同机制,确保决策高效、可控,并随业务动态演进。
|
2月前
|
存储 人工智能 NoSQL
阿里云表格存储 Tablestore 全面升级 AI 能力,存储成本直降 30%
让 AI 记得久、找得快、用得上,表格存储加速智能体记忆进化。
|
8天前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
173 12
|
4天前
|
设计模式 机器学习/深度学习 人工智能
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?

热门文章

最新文章