什么是基于异构计算的AI架构|学习笔记

简介: 快速学习什么是基于异构计算的AI架构

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构什么是基于异构计算的AI架构】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10746


什么是基于异构计算的 AI 架构


内容介绍:

一、人工智能三要素

二、异构计算满足人工智能算力需求

三、异构计算促进人工智能的发展简史

四、阿里云异构计算为 AI 提供全面算力

五、基于阿里云异构计算的AI应用架构


一、人工智能三要素

人工智能分为三个要素,算法、数据和计算力。如果把人工智能比作一艘冉冉飞起的火箭的话,算法就是它的控制台,能够控制它的方向;数据就是它的燃料,充分的数据可以燃烧;计算力就是它的加速引擎。今天重点分享的是计算力,依托计算,飞天AI的加速如何加速人工智能的引擎。

image.png


二、异构计算满足人工智能算力需求

深度学习对计算力的需求呈指数级增长;

异构计算性能增长超越了摩尔定律,满足AI深度学习的发展对算力的需求。

image.png

人工智能发展到今天,模型越来越复杂,计算的需求也越来越高,传统的 CPU 无法满足人工智能越来越高的计算的需求,因韦达这种 GPU 为代表的异构计算的性能远远超出了 CPU 的发展能力,异构计算能够满足人工智能的发展对算力的需求。

由图可知,因韦达的 GPU 算力性能的增长速度是远远超过传统的普通 CPU 的增长速度的,所以异构计算会把人工智能推向一个新的高度。


三、异构计算促进人工智能的发展简史

1980年,神经网络算法提出;但是近几十年都没有特别大的突破;在2011年,谷歌用12片 GPU 代替了2000片 CPU,通过深度神经网络算法让机器通过看视频学会了识别猫;在2012年,Alex 和 Hinton 用 GPU 加速的深度神经网络在 ImageNet 图像识别比赛上击败传统算法获得冠军;在2015年,Google 和微软用 GPU 加速的深度神经网络,在 ImageNet 比赛中击败了多项工人辨识度,也就是说,人工智能在这个时候在某些领域已经超越了人类;在2016年,谷歌旗下 Deep Mind 团队研发的机器人AlphaGo 以4比1战胜世界围棋冠军李世石,这是人工智能发展中的一个重要里程碑,训练用了50片 GPU,走棋网络用了174片GPU,以 GPU 为代表的异构计算以火箭引擎的方式推动人工智能火箭的发展。


四、阿里云异构计算为 AI 提供全面算力

image.png

有三种不同 GPU 的实例,轻量级 GPU 实例,把 P4和T4的卡做分片,最小能分到1/8的P4和1/8的T4的卡,这种实例比较适合机器学习以及对算力要求不高的深度学习推理;常规虚拟化 GPU 实例,是把整块 GPU 卡作为加速实例提供给用户使用,它包括 GN5i提供两块 P4的卡,GN6i提供4块 T4的卡,GN6v提供8块v100的计算实例,v100之间是通过 NVLink 互联的,

主要适合于做深度学习、强化学习场景包括计算机视觉,图像合成,语音识别,语音合成,自然语言理解,机器翻译,自动驾驶等等;

X-Dragon(神龙)Hypervisor,神龙架构可以通过神龙罗金属的方式把 GPU 的计算能力和 CPU 的计算能力完全没有驯化的方式提供给用户使用,用户使用的是完全没有损失的 GPU 和 CPU,

在 ebmGN6i 的实例上提供了4块 T4的计算卡,在 SCC 的实例上提供了8块 V100的 NVLink 互联的卡,提供了50Gb的 RDMA 互联,在 SCCGN6ne 的实例上,提供了8块32GB 显存的V100,100Gb RDMA 互联。RDMA 的互联能力是要比T4的强很多的,延迟可以降低一个数量级。比较适合大规模深度学习,比如大规模分布式训练、推理以及在线机器学习。算力的要求,对实施性的要求都非常高。


五、基于阿里云异构计算的AI应用架构

image.png

在 IaaS 资源层,可以基于阿里云创建出 GPU 云服务器的计算资源以及 TCP、RDMA 网络的网络资源;

用户自己用主流的计算框架层,比如 Tensorflow、PyTorch、MXNET、Caffe 做计算框架;

在应用层,用这些框架搭建视觉服务或者 CTR 服务,自然语言理解或者语音识别的服务。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
8月前
|
存储 人工智能 前端开发
从需求到研发全自动:如何基于Multi-Agent架构打造AI前端工程师
本文深入阐述了蚂蚁消金前端团队打造的Multi-Agent智能体平台——“天工万象”的技术实践与核心思考。
1650 21
从需求到研发全自动:如何基于Multi-Agent架构打造AI前端工程师
|
8月前
|
人工智能 监控 前端开发
支付宝 AI 出行助手高效研发指南:4 人团队的架构迁移与提效实战
支付宝「AI 出行助手」是一款集成公交、地铁、火车票、机票、打车等多项功能的智能出行产品。
1247 21
支付宝 AI 出行助手高效研发指南:4 人团队的架构迁移与提效实战
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
648 98
|
6月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
1085 23
|
6月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
492 6
|
7月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
845 7
|
8月前
|
消息中间件 人工智能 缓存
AI Agent 发展趋势与架构演进
本文介绍了编程范式的演进,从传统软件1.0、2.0时代进入大模型驱动的软件3.0时代,重点解析了AI原生应用与AI Agent的核心概念、开发关键问题及参考架构。同时探讨了Workflow与Agent模式、单Agent与多Agent的适用场景,以及提示词工程与上下文工程的差异。文章还介绍了Spring AI Alibaba、Nacos、Higress、RocketMQ等关键技术组件在AI原生应用中的作用,并提出了AI Agent可观测性解决方案,涵盖性能指标、链路追踪与质量评估等内容。最后介绍了开源项目LoongSuite的规划,助力AI原生应用的开发与优化。
971 2
|
7月前
|
人工智能 Cloud Native 中间件
划重点|云栖大会「AI 原生应用架构论坛」看点梳理
本场论坛将系统性阐述 AI 原生应用架构的新范式、演进趋势与技术突破,并分享来自真实生产环境下的一线实践经验与思考。
|
7月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
769 1

热门文章

最新文章