【杭州云栖】异构计算:软硬件结合全栈助力AI大爆发

简介: 2018杭州云栖大会,异构计算专场精彩回顾

9月20日上午,杭州云栖小镇E1-2会场,备受业界关注的2018年杭州云栖大会异构计算专场召开。

近年来,人工智能持续爆发,对算力提出了更高的要求。异构计算作为大计算时代的解决方案,意在打破传统通用计算的限制,融合不同指令集和体系架构的计算单元,完美支持大计算场景。
___px_2018_09_21_1_

让每一个芯片都发挥最大效能

首先,阿里云弹性计算负责人,阿里云研究员余锋,带来了精彩的开场。余锋以摄影来打开话题:每一个镜头都会有特别的定位,在某个场景下合适但是另外场景会力不从心,异构计算的精髓也是如此,即让每一个芯片都发挥最大效能,扬长避短。

5A8A3433

余锋说:异构计算带来的计算效率提升是指数级的,但是需要有配套工具,基础设施等等。阿里云正在逐渐让这个门槛变低,并且和业内一起构建技术生态,让异构计算普惠行业,帮助合作伙伴和客户不断创新。

GN6实例 F3实例全面商业化

议题阶段,首先登场的是阿里云高级产品专家潘岳。潘岳首先介绍了正在全面商业化推进的GN6实例和F3实例。GN6实例搭载NVIDIA Volta架构的Tesla V100计算卡,相对于上一代产品可以提供12倍的运算能力提升。而基于阿里云FaaS(FPGA as a service)舜天平台的F3实例搭载Xilinx 16nm Virtex UltraScale+器件VU9P,对比上一代产品,逻辑容量增加4倍,DSP能力提升8倍。

5A8A3513

两大平台:昊天 和 舜天,全面助力企业创新

随后,潘岳首次揭秘了阿里云异构计算两大平台:昊天EGS平台和舜天FaaS平台;分别对应异构计算领域两大热门芯片方案:GPU和FPGA。潘岳指出,阿里云异构计算平台技术在阿里巴巴内部已经完成和多项业务的顺利融合,历经大范围高压测试,已然非常成熟。除此之外,异构计算全系产品与阿里云生态深度无缝融合,可以和传统的通用计算共用云上的全套服务。

_

在改善用户使用体验上,阿里云异构产品持续提供多种工具,来让异构产品更易用,这其中包括了方便开发部署的容器镜像工具,实时监测GPU状态的运维工具,以及神经网络框架优化的增值服务等。此后,潘岳分享了阿里云FPGA云服务器落地的业务场景。最后,在异构生态建设上,潘岳强调,阿里云积极引入国内外众多的解决方案供应商,共同构建完善异构生态体系,为企业客户提供高性能的加速解决方案。

昊天平台揭秘

论坛的第二个议题由阿里云资深技术专家龙欣带来,对昊天EGS平台进行了详细的剖析。龙欣指出阿里云异构计算的GPU云服务,在算力水平扩展趋势背景下,已经从GPU加速器的单点突破,向全面的平台体系演进。

5A8A3586

今天的演讲第一次披露了阿里云昊天EGS平台的服务体系:昊天平台在集群计算上,为不同规模的客户提供了从GPU集群运维监控,到底层CUDA驱动,再到中间框架加速层快速一键部署,和GPU集群分布式业务层定制化调优的全面专业服务。演讲还分享了昊天平台在底层基础设施层的技术架构:GPU虚拟机的热升级技术、与AMD联合开发的公共云首个基于SRIOV的GPU热迁移技术、神龙GPU技术与超级计算GPU集群技术。

成熟客户案例立体呈现

来自微博的资深技术专家黄波,从客户的角度,详细介绍了基于阿里云异构计算平台的深度学习案例。同时,黄波先生还从自身体验出发,总结了云端深度学习的优势:弹性,集群化管理,高性能,和专业服务等等。

5A8A3614

舜天平台揭秘

第四个登场的是阿里云资深技术专家张振祥,带来了对阿里云FaaS舜天平台的详细剖析。议题指出阿里云FaaS舜天平台是云上输出FPGA高性价比算力的使能器,大幅降低了FPGA的应用门槛。围绕着“易用性、稳定性、可扩展性和安全性”的设计理念,舜天平台做了大量的软硬件创新。

5A8A3669

张振祥强调,以舜天平台为依托,阿里云愿与业界的合作伙伴和客户并肩携手,打造FPGA异构计算的健康而强大的生态圈。随着云计算和人工智能的进一步普及,FPGA的器件和技术将获得进一步的提升和改善,更好地适用大算力的应用场景,服务更多的垂直市场。演讲过程中,现场反应热烈,业界同仁对共建生态圈体感强烈。

舜天平台助力阿里高性能时序数据库

最后,阿里巴巴技术专家钱赟介绍了基于阿里云舜天平台的高性能时序数据库。从实际案例出发,再次验证了舜天平台的性能极致,资源易用,IP安全,同时又可以大幅降低计算成本等特性。

5A8A3709

阿里云在异构计算上的逐步深入和成熟,正在帮助越来越多的企业在云上实现创新和突破。比如刚刚在MS COCO大赛获得4项世界冠军的旷视科技就是阿里云异构计算的深度用户。客户的成功一直是阿里云的诉求和共同目标,一起来用异构计算开启大计算时代吧。

相关阅读
【杭州云栖】弹性计算平台技术:云服务器“安全”“稳定”“弹性”的基石
AI技术出海 - 阿里云GPU服务器助力旷视勇夺4项世界第一
FPGA资源平民化的新晋- F3 技术解析
【FPGA-F3】阿里云FAAS平台,极大简化FPGA开发部署流程
扫盲人工智能的计算力基石--异构计算

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
4月前
|
人工智能 运维 监控
首个云上 AI 原生全栈可观测平台来了!
9月21日,2024 云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。
296 12
|
30天前
|
人工智能 自然语言处理 JavaScript
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。
118 8
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
|
22天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
22天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
1月前
|
人工智能 算法 搜索推荐
2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠
2024年11月30日,由开放源子开源基金会主办,魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。
2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠
|
2月前
|
人工智能 机器人 信息无障碍
11月30日“2024 AI+硬件创新大赛”决赛-杭州西湖体育馆见!
探索AI硬件创新,28强团队决战杭州西湖体育馆
11月30日“2024 AI+硬件创新大赛”决赛-杭州西湖体育馆见!
|
2月前
|
传感器 人工智能 机器人
|
2月前
|
人工智能 运维 关系型数据库
云栖大会|数据库与AI全面融合,迈入数据智能新纪元
2024年云栖大会「数据库与AI融合」专场,来自NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax等企业的代表与阿里云瑶池数据库团队,共同分享了Data+AI全面融合的最新技术进展。阿里云发布了DMS的跨云统一开放元数据OneMeta和智能开发OneOps,推出《云数据库运维》技术图书,并介绍了PolarDB、AnalyticDB、Lindorm和Tair等产品的最新能力,展示了AI在数据库领域的广泛应用和创新。
317 15
|
2月前
|
人工智能 运维 NoSQL
云栖大会|多模+一体化,构建更高效的AI应用
在2024年云栖大会「NoSQL数据库」专场,多位知名企业和阿里云瑶池数据库团队的技术专家,共同分享了阿里云Lindorm、Tair、MongoDB和MyBase的最新进展与实践。Tair推出Serverless KV服务,解决性能瓶颈和运维难题;Lindorm助力AI和具身智能时代的多模数据处理;MongoDB云原生化提升开发效率;MyBase One打破云边界,提供云边端一体化服务。这些技术进展和最佳实践,展示了阿里云在NoSQL数据库领域的创新能力和广泛应用前景。

热门文章

最新文章