升级4:飞天AI加速解决方案|学习笔记

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 快速学习升级4:飞天AI加速解决方案

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级4:飞天AI加速解决方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10750


升级4:飞天AI加速解决方案


内容介绍:

一、架构升级4-飞天AI加速解决方案

二、客户案例

三、飞天AI加速解决方案-特色优势

四、飞天AI加速解决方案-客户收益


一、架构升级4-飞天AI加速解决方案

在应用层加入了图像识别的场景,视频识别场景,CTR 预估场景,自

然语言理解场景,语音识别场景;在调度这层加入 QBS 调度。


二、客户案例

1、客户案例一:大规模人脸识别

1.png

客户案例一是大规模人脸识别,把人脸识别数提高到上千万,千万级人脸分类是工业界一大难题,模型是InsightFace,框架是 MXNET,存储是并行文件系统 CPFS,CPFS 可以在云端提供一个并行文件,可以根据需求在云端拓展存储,拓展带宽以及 LPS 能力。所以在分布式训练时,非常适合用 CPFS 做分布式的存储,框架是可以通过FastGPU 或 QBS 搭建,自动构建出分布式训练框架来,他的加速引擎是 AIACC-MXNET,自动构建出很多 GPU 云服务器来做 Tensorflow 训练,CPFS 上只需要存一份数据,每台 GPU 就可以从 CPFS 上不同的 Batch 来做训练。

(1)客户案例1:大规模人脸识别-性能优化

1.png

优化方法扩展 AIACC 的接口支持 MXNET 分布式训练,扩展 AIACC 支持数据并行与模型并行的混合并行,上图是数据并行与模型并行的混合并行的图,最终将人脸识别能力提升到千万级人脸性能提升,在16张 GPU,性能提升56%;32张 GPU,性能提升到2.3倍;64张 GPU,性能提升到3.8倍,将训练时间从23小时缩短到6个小时。

2、客户案例二:CTR 预估

1.png

客户案例二是 CTR 预估,CTR 预估会根据网上用户的行为,用户的点击,停留时间,转发,点赞,评论等行为给用户提供千人千面的推荐,推荐内容,广告。数据量是千亿级别数据量,模型是 Wide&Deep,框架是 Tensorflow,配置是2xM40GPU卡,56vcpu·25Gb 网络,存储是文件系统 HDFS。

(1)客户案例二:CTR 预估性能优化结果

1.png

性能优化包括定位性能瓶颈,开始用户是使用 Tensorflow 运行的,上图绿色部分是 Tensorflow 的性能,随机器数增加,性能并没有得到相应的提升,性能瓶颈主要来自两个方面,IO、通信,优化IO性能做多线程读取,多缓存队列,优化通信性能,用 AIACC-Tensorflow 通信优化,性能提升,在4张GPU,性能提升3.5倍,64张GPU,性能提升8.5倍,128张 GPU,性能提升13.4倍,训练时间从67小时缩短到5小时。

3、客户案例三:NLP 自然语言理解

1.png

客户案例三是 NLP 自然语言理解,之前流行的模型是 Transformer,现在流行的模型是 Bert,框架是 Tensorflow,配置是8xP100GPU卡,56vcpu-25Gb 网络,存储是并行文件系统 CPFS。

(1)客户案例三:NLP自然语言理解性能优化结果

1.png

自然语言理解的模型是比较大的,包括 Bert 模型和 Transformer 模型,都是相当大的,在传输时对网络的压力非常高,在原始的 Tensorflow 的时候,单机8卡有一定的加速比,双机16卡,性能减小,因为通信时没有非常好的处理通讯性能。所以通过拓展AICC的接口支持 Bert、Transformer 模型开启编译优化。最终 Bert 模型1机8卡,性能提升到2倍,2机16卡,性能提升到4.8倍,训练时间从48小时缩短到10小时;Transformer 模型1机8卡,性能提升到1.5倍,2机16卡,性能提升到2.6倍,训练时间从24小时缩短到9小时。


三、飞天AI加速解决方案-特色优势

飞天AI加速解决方案-特色优势包括四大方面,多框架统─加速,用户在使用框架时,可以使用 AICC 做到无缝加速,基于 laaS 基础资源做性能极致优化,对 GPU 的计算,网络的通信都做了非常深入的优化,可以把 laaS 的 GPU 加速实例,网络通信能力充分发挥出来,基于laaS基础资源弹性伸缩,可以通过 FastGPU 做一键构建,也可以做到弹性伸缩,从而达到计算成本和效率的最优配比,轻量便捷,开源兼容,框架都是兼容的,用户使用,模型和算法基本不用做修改。只要用到 AICC 就能做到性能的提升,开源网址:https://github.com/aliyun/alibabacloud-aiacc-demo


四、飞天 AI 加速解决方案-客户收益

提升客户 Al 应用性能,提升 AI 算法研究的工作效率,之前需要5天训练的模型现在不到1小时就可完成,提升客户业务的竞争力,提升用户算法研发效率之后,就可以提升用户产品的竞争力,同时在用户在线推理的性能上,也可提升用户的吞吐量,节约用户单位访问的成本,降低客户使用计算资源的成本,训练和推理时都可降低用户的单位使用成本。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
8天前
|
机器学习/深度学习 人工智能 算法
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。
80 13
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
|
7天前
|
人工智能 搜索推荐 Serverless
打造智能购物新体验:主动式智能导购AI助手解决方案评测
阿里云推出的《主动式智能导购AI助手构建》解决方案,基于百炼大模型和函数计算,采用Multi-Agent架构,提供个性化、智能化的购物体验。系统具备主动交互、精准推荐、自动化架构等亮点,支持快速部署和生产环境应用。评测结果显示,该方案在功能效果和架构设计上表现出色,但仍需优化文档和技术细节。欢迎参加官方评测活动... 详细评测及参与方式请参考:[链接](https://developer.aliyun.com/topic/build-an-ai-shopping-assistant?spm=a2c6h.12873639.article-detail.17.13902d93dZhiyK)。
27 1
打造智能购物新体验:主动式智能导购AI助手解决方案评测
|
7天前
|
人工智能 搜索推荐 算法
解决方案评测|主动式智能导购AI助手构建
阿里云的主动式智能导购AI助手是电商商家提升用户体验和销量的利器。它能实时分析用户行为,提供个性化推荐,支持多渠道无缝对接,并具备语音和文本交互功能。通过注册阿里云账号、开通服务、配置项目、设置推荐策略、集成到平台并测试优化,商家可以轻松部署这一工具。关键代码示例帮助理解API对接和数据处理。建议增强个性化推荐算法、优化交互体验并增加自定义选项,以进一步提升效果。
56 11
|
3天前
|
机器学习/深度学习 人工智能 Serverless
《主动式智能导购AI助手构建》解决方案评测
简介: 通过函数计算应用模板,您可以快速搭建一个集成智能导购的网站,实现多轮交互收集用户商品偏好,默认支持手机、电视和冰箱。部署时填写API Key,创建并部署环境(约1分钟)。部署完成后,访问示例网站域名确认成功。智能导购会根据用户意图分类并传递给相应商品导购Agent,返回商品信息。您还可以选择集成百炼应用进行智能商品检索。此架构适用于智能问诊、求职推荐等场景。在生产环境中,可修改知识库和源码以适配具体需求,并通过优化提示词和私有知识库来持续改进回复效果。
39 4
|
10天前
|
人工智能 安全 算法
PAI负责任的AI解决方案: 安全、可信、隐私增强的企业级AI
在《PAI可信AI解决方案》会议中,分享了安全、可信、隐私增强的企业级AI。会议围绕三方面展开:首先通过三个案例介绍生活和技术层面的挑战;其次阐述构建AI的关键要素;最后介绍阿里云PAI的安全功能及未来展望,确保数据、算法和模型的安全与合规,提供全方位的可信AI解决方案。
|
9天前
|
存储 人工智能 物联网
工业公辅车间数智化节能头部企业,蘑菇物联选择 TDengine 升级 AI 云智控
在工业节能和智能化转型的浪潮中,蘑菇物联凭借其自研的灵知 AI 大模型走在行业前沿,为高能耗设备和公辅能源车间提供先进的 AI 解决方案。此次采访聚焦于蘑菇物联与 TDengine 的合作项目,通过 AI 云智控平台的建设,双方携手推动制造工厂的能源数智化管理,助力企业实现节能降碳。在本文中,我们将深入探讨蘑菇物联选择 TDengine 的原因、项目实施中的挑战与解决方案,以及合作视角下双方的未来愿景。
21 2
|
6天前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
6天前
|
人工智能 运维 API
PAI企业级能力升级:应用系统构建、高效资源管理、AI治理
PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。
|
9天前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。
|
12天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
148 97