AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览

简介: AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览

5e980980854ffa7b72b022b4037f1eec.jpg

AI基础设施全栈优化

模型算力利用率提升超20%


阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。


b4ad12022769a40ccfe8087363a77cc0.jpg

此次通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞吐20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。


全新弹性计算产品家族发布

第九代ECS实例最高提升30%性能


1705a31649e231cd91f1a860bfd86f00.jpg


阿里云发布全新的弹性计算产品家族。基于全面升级的云基础设施处理器CIPU2.0,通用计算、加速计算、容器计算等三大弹性计算产品系列均实现性能大幅提升。其中,容器计算服务ACS率先商业化,综合算力成本最高可降55%,并即将推出GPU容器算力


在通用计算方面,阿里云发布第九代ECS企业级实例。其中,g9i实例基于Intel最新的第六代至强处理器GNR,内存带宽提升70%,在web场景性能相比8代实例最大提升20%;g9a实例基于AMD最新Zen5处理器,搭配阿里云最新CIPU架构,单核性能提升20%,搜推广场景下分布式训练集群性能提升30%。


d4b03fac63d2c0ec7dab0f05797ed393.jpg


无影AI云电脑亮相

体验大幅升级、AI助手大变身


基于最新的终端云计算技术和大模型能力,无影云电脑进行了全新的升级,新增弹性升降配、双网自由切换、多端操作系统和知识库问答、时间回溯和编码大师等AI智能体能力,为安全办公、个人娱乐带来全新的云上智能体验。云栖大会期间无影还发布了全新的云游戏模式,可限时免费畅玩《黑神话:悟空》等3A游戏大作。为了让更多用户体验到终端云计算的便利,所有新用户都可以在支付宝“无影云电脑”小程序里免费领取一台无影云电脑。


5c5155b4c09127c1bb35ee39b3cefb87.jpg


增加开放免费安全防护能力

护航百万客户云上安全


阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。


同时,阿里云还将公共云安全责任共担的思路,升级为“云上安全共同体”理念,这意味着阿里云不仅会坚守安全责任共担模式下云服务商的责任,搭建和提供“安全的云”,  更会进一步与客户紧密合作,提供更多可供客户采取的安全保障措施,与云上客户共同形成一个紧密相连、  互相支持的安全防护网络,进一步造就云平台的运行安全。


82c25d1b45df9935937f4a8f35c7bd41.jpg



AI计算加速渗透
通义服务30万+企业客户


中国一汽、联想、微博、携程、喜马拉雅、三得利(中国)等30多万企业客户已经接入通义大模型。未来,生物医药、工业仿真、气象预测、游戏等行业还在加速拥抱大模型,将带来新一轮的AI算力增长。


相关文章
|
21天前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
21天前
|
机器学习/深度学习 存储 人工智能
转载:【AI系统】计算之比特位宽
本文详细介绍了深度学习中模型量化操作及其重要性,重点探讨了比特位宽的概念,包括整数和浮点数的表示方法。文章还分析了不同数据类型(如FP32、FP16、BF16、FP8等)在AI模型中的应用,特别是FP8数据类型在提升计算性能和降低内存占用方面的优势。最后,文章讨论了降低比特位宽对AI芯片性能的影响,强调了在不同应用场景中选择合适数据类型的重要性。
转载:【AI系统】计算之比特位宽
|
1天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
11天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在电子商务中的个性化推荐系统:驱动用户体验升级
AI在电子商务中的个性化推荐系统:驱动用户体验升级
74 17
|
1天前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
|
25天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图原理
本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势,探讨了计算图的基本构成,包括标量、向量、矩阵、张量等数据结构及其操作,并详细解释了计算图如何帮助解决AI工程化中的挑战。此外,文章还通过PyTorch实例展示了动态计算图的特点和实现方法,包括节点(张量或函数)和边(依赖关系)的定义,以及如何通过自定义Function实现正向和反向传播逻辑。
68 7
【AI系统】计算图原理
|
25天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
44 5
【AI系统】计算图的控制流实现
|
25天前
|
机器学习/深度学习 存储 人工智能
【AI系统】计算图与自动微分
自动求导利用链式法则计算雅可比矩阵,从结果节点逆向追溯计算路径,适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中,自动微分与反向传播紧密相连,通过构建计算图实现高效梯度计算,支持动态和静态计算图两种模式。动态图如PyTorch,适合灵活调试;静态图如TensorFlow,利于性能优化。
60 6
【AI系统】计算图与自动微分
|
25天前
|
机器学习/深度学习 人工智能 算法
【AI系统】计算图挑战与未来
当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
55 5
【AI系统】计算图挑战与未来
|
25天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图基本介绍
近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
43 4
【AI系统】计算图基本介绍