升级4:飞天AI加速解决方案|学习笔记

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 快速学习升级4:飞天AI加速解决方案

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级4:飞天AI加速解决方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10750


升级4:飞天AI加速解决方案


内容介绍:

一、架构升级4-飞天AI加速解决方案

二、客户案例

三、飞天AI加速解决方案-特色优势

四、飞天AI加速解决方案-客户收益


一、架构升级4-飞天AI加速解决方案

在应用层加入了图像识别的场景,视频识别场景,CTR 预估场景,自

然语言理解场景,语音识别场景;在调度这层加入 QBS 调度。


二、客户案例

1、客户案例一:大规模人脸识别

1.png

客户案例一是大规模人脸识别,把人脸识别数提高到上千万,千万级人脸分类是工业界一大难题,模型是InsightFace,框架是 MXNET,存储是并行文件系统 CPFS,CPFS 可以在云端提供一个并行文件,可以根据需求在云端拓展存储,拓展带宽以及 LPS 能力。所以在分布式训练时,非常适合用 CPFS 做分布式的存储,框架是可以通过FastGPU 或 QBS 搭建,自动构建出分布式训练框架来,他的加速引擎是 AIACC-MXNET,自动构建出很多 GPU 云服务器来做 Tensorflow 训练,CPFS 上只需要存一份数据,每台 GPU 就可以从 CPFS 上不同的 Batch 来做训练。

(1)客户案例1:大规模人脸识别-性能优化

1.png

优化方法扩展 AIACC 的接口支持 MXNET 分布式训练,扩展 AIACC 支持数据并行与模型并行的混合并行,上图是数据并行与模型并行的混合并行的图,最终将人脸识别能力提升到千万级人脸性能提升,在16张 GPU,性能提升56%;32张 GPU,性能提升到2.3倍;64张 GPU,性能提升到3.8倍,将训练时间从23小时缩短到6个小时。

2、客户案例二:CTR 预估

1.png

客户案例二是 CTR 预估,CTR 预估会根据网上用户的行为,用户的点击,停留时间,转发,点赞,评论等行为给用户提供千人千面的推荐,推荐内容,广告。数据量是千亿级别数据量,模型是 Wide&Deep,框架是 Tensorflow,配置是2xM40GPU卡,56vcpu·25Gb 网络,存储是文件系统 HDFS。

(1)客户案例二:CTR 预估性能优化结果

1.png

性能优化包括定位性能瓶颈,开始用户是使用 Tensorflow 运行的,上图绿色部分是 Tensorflow 的性能,随机器数增加,性能并没有得到相应的提升,性能瓶颈主要来自两个方面,IO、通信,优化IO性能做多线程读取,多缓存队列,优化通信性能,用 AIACC-Tensorflow 通信优化,性能提升,在4张GPU,性能提升3.5倍,64张GPU,性能提升8.5倍,128张 GPU,性能提升13.4倍,训练时间从67小时缩短到5小时。

3、客户案例三:NLP 自然语言理解

1.png

客户案例三是 NLP 自然语言理解,之前流行的模型是 Transformer,现在流行的模型是 Bert,框架是 Tensorflow,配置是8xP100GPU卡,56vcpu-25Gb 网络,存储是并行文件系统 CPFS。

(1)客户案例三:NLP自然语言理解性能优化结果

1.png

自然语言理解的模型是比较大的,包括 Bert 模型和 Transformer 模型,都是相当大的,在传输时对网络的压力非常高,在原始的 Tensorflow 的时候,单机8卡有一定的加速比,双机16卡,性能减小,因为通信时没有非常好的处理通讯性能。所以通过拓展AICC的接口支持 Bert、Transformer 模型开启编译优化。最终 Bert 模型1机8卡,性能提升到2倍,2机16卡,性能提升到4.8倍,训练时间从48小时缩短到10小时;Transformer 模型1机8卡,性能提升到1.5倍,2机16卡,性能提升到2.6倍,训练时间从24小时缩短到9小时。


三、飞天AI加速解决方案-特色优势

飞天AI加速解决方案-特色优势包括四大方面,多框架统─加速,用户在使用框架时,可以使用 AICC 做到无缝加速,基于 laaS 基础资源做性能极致优化,对 GPU 的计算,网络的通信都做了非常深入的优化,可以把 laaS 的 GPU 加速实例,网络通信能力充分发挥出来,基于laaS基础资源弹性伸缩,可以通过 FastGPU 做一键构建,也可以做到弹性伸缩,从而达到计算成本和效率的最优配比,轻量便捷,开源兼容,框架都是兼容的,用户使用,模型和算法基本不用做修改。只要用到 AICC 就能做到性能的提升,开源网址:https://github.com/aliyun/alibabacloud-aiacc-demo


四、飞天 AI 加速解决方案-客户收益

提升客户 Al 应用性能,提升 AI 算法研究的工作效率,之前需要5天训练的模型现在不到1小时就可完成,提升客户业务的竞争力,提升用户算法研发效率之后,就可以提升用户产品的竞争力,同时在用户在线推理的性能上,也可提升用户的吞吐量,节约用户单位访问的成本,降低客户使用计算资源的成本,训练和推理时都可降低用户的单位使用成本。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
26天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
102 19
|
11天前
|
人工智能 自然语言处理 算法
《文档智能 & RAG让AI大模型更懂业务》解决方案的测评:
此解决方案通过文档智能技术分析、处理和结构化业务文档,利用RAG技术整合至LLM知识库,提升AI模型的业务理解和响应准确性。部署文档详尽易懂,适合新手操作。系统在专业领域查询中表现出色,但建议优化冷启动性能和多语言处理能力,以满足更多企业需求。适用于客户服务、内部知识管理和数据分析等场景,特别适合需高效信息检索的大型企业,建议提供不同规模解决方案以适应各类企业。
39 1
|
15天前
|
机器学习/深度学习 人工智能 监控
智慧交通AI算法解决方案
智慧交通AI算法方案针对交通拥堵、违法取证难等问题,通过AI技术实现交通管理的智能化。平台层整合多种AI能力,提供实时监控、违法识别等功能;展现层与应用层则通过一张图、路口态势研判等工具,提升交通管理效率。方案优势包括先进的算法、系统集成性和数据融合性,应用场景涵盖车辆检测、道路环境检测和道路行人检测等。
|
17天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
21天前
|
人工智能 算法 程序员
程序员如何借势AI提高自己:从高效工作到技能升级的全面指南
【11月更文挑战第4天】程序员可以通过以下几个方面借势 AI 提升自己:1. 日常工作效率提升,包括智能代码编写与补全、自动化测试与调试、项目管理与协作;2. 技能学习与升级,涵盖基础知识学习和深入技术研究;3. 思维拓展与创新能力培养,激发创意灵感和培养批判性思维。
|
24天前
|
机器学习/深度学习 人工智能 编解码
全面升级的“新清影”,给AI生成视频带来了哪些新玩法?
智谱清言App近日上线了“新清影”,并开源了最新的图生视频模型CogVideoX v1.5。相比之前的版本,“新清影”在视频分辨率、生成速度、多通道生成能力和模型性能等方面均有显著提升,支持生成10秒、4K、60帧的超高清视频。此外,即将上线的音效功能将进一步提升视频的逼真度和实用性,标志着AI视频创作进入“有声时代”。这些改进使得内容创作变得更加高效和便捷,为创作者提供了更多可能性。
|
11天前
|
人工智能 弹性计算 数据可视化
解决方案|触手可及,函数计算玩转 AI 大模型 评测
解决方案|触手可及,函数计算玩转 AI 大模型 评测
23 0
|
15天前
|
存储 人工智能 大数据
面向 AI 的存储基础设施升级
AI 与大数据融合化是大势所趋,企业可以通过大数据技术收集和存储大量数据,进行一站式计算分析和数据治理,以便安全、精确、高效、智能地应用数据。在这个话题中,我们将会介绍阿里云全栈存储数据基础设施如何支撑 AI 场景的创新与实践,并带来全新一代存储产品的重磅发布,帮助企业高效数字创新。
|
8天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗诊断中的应用及前景展望
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、挑战与未来发展趋势。通过分析AI技术如何助力提高诊断准确率、缩短诊断时间以及降低医疗成本,揭示了其在现代医疗体系中的重要价值。同时,文章也指出了当前AI医疗面临的数据隐私、算法透明度等挑战,并对未来的发展方向进行了展望。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。