「智驱未来,云网随行」阿里云基础设施AI技术沙龙云网络专场在杭州举办

简介: 6月20日,阿里云基础设施AI Tech Day ·云网络专场在杭州太极禅院成功举办。活动吸引了来自吉利、极氪、浙江大学等35位技术负责人及师生参与。现场围绕AI场景下的算力资源网络建设,探讨了数据采集、模型调度、算力池化等关键技术方案,分享了阿里云在通义模型、PAI平台、弹性计算及云网络方面的最佳实践,助力企业构建智能、弹性的AI基础设施。

聚焦AI场景下的算力资源网络建设,「智驱未来,云网随行」阿里云基础设施AI Tech Day首场 ·云网络专场于6月20日下午在杭州太极禅院顺利举办,现场吸引了来自吉利、极氪、万帮、正元智慧、分叉智能、小影科技、哈啰、国家(杭州)新型互联网交换中心、飞致云等25家AI领域相关企业或有AI建设诉求企业的35名技术/研发负责人、架构师及IT运维工程师参与,同时也吸引了浙江大学、浙江外国语学院、杭州师范大学等从事AI领域研究的师生参与现场学习讨论。 本次技术沙龙旨在聚焦企业在AI模型及应用运营或者使用过程中的实际需求,探讨如何通过优化模型调度、算力资源池化、数据深度挖掘等场景下的AI基础设施 & 网络架构,帮助企业打造智能、弹性、稳定的下一代AI Infra。


阿里云 公共云事业部 江浙皖大区副总经理 张思远(紫鉴)致开场辞,随着AI能力的加持,企业的IT基础设施建设已经不仅仅是一个流程和工具的重构,而是深刻地纳入企业的业务流程,成为很多企业的战略决策参与者。在AI的加持下,我们今天的云基础设施也在重新被定义,也希望云基础设施能够成为AI爆发的创新土壤。在AI时代,无论是企业还是个人的竞争更多是认知速度的竞争。认知速度都要向网络速度靠拢,零等待的高性能智能网络可能是AI时代业务爆发的一个底座和前提。希望阿里云无论是网络、计算、通义、PAI等基础能力能够助力大家共同创造和见证AI未来。

Part 1:AI 数据采集和模型调用

在这一章节,围绕着企业AI模型训练和推理过程中的数据采集、模型调度和弹性资源池建设等问题,就阿里云解决方案以及最佳实践展开分享。


在这一章节,阿里云 通义实验室 高级产品解决方案架构师郑海超(海焘) 介绍了阿里云通义模型的建设和实践经验。随着多年的发展,通义已经成为全球最大的开源模型家族,并在多个行业场景支持业务创新,加速创维电视/雷鸟AI眼镜等消费电子产品创新,以及陶白白/猎聘AI面试官等社交娱乐体验;而通义系列模型的强大能力,离不开阿里云AI Infra层的支撑,包括 PAI、弹性算力、全球一张算力网络等,支撑通义从数据采集到数据加工,模型训练和调优以及提供推理服务的全场景需求。

阿里云 云网络 产品解决方案架构师 姜辉(靖韦)就AI场景数据采集网络方案和实践进行了分享,包括AI数据采集场景的常见痛点,模型训练场景常用的数据采集方式及业务特点,阿里云在数据采集场景的方案等,其中方案层面重点介绍了阿里云的海量IP数据采集方案、NAT网关数据采集方案和定向数据采集方案等,基本覆盖了客户常见的数据采集场景。

阿里云 弹性计算 产品解决方案架构师 储依帆(徽岳)分享AI Infra 关键基础算力与容器编排调度方案。阿里云具备AIInfra整体全栈能力,不仅提供了通用与加速计算高性能算力,并在IaaS基础上基于深厚的技术积累演进推出了AI训推任务的加速组件DeepGPU,实现了算力效率的大幅提升;同时,面向全链路工程化,阿里云ACK容器服务可以帮助客户更高效地串联起AI模型与AI应用,具备了数据采集与处理、算力调度与监控、角色拓扑编排、数据加速等方面的全栈能力。

Part 2:AI 算力资源池化

无论是AI模型的训推或者AI应用的搭建和服务提供,均离不开强大的算力支撑,那如何整合异构算力资源,以更高效的提升企业AI效能,阿里云PAI和云网络就此展开解决方案和最佳实践的分享。


阿里云 计算平台 高级产品解决方案架构师曹志(骁志)就PAI全球化模型推理服务的创新与实践展开分享。围绕资源的高利用率、服务的高性能、业务的高可用,AGI的推理服务有诸多挑战,BladeLLM核心引擎,提升AGI服务的性能与效率,提供全面多样的量化功能支持、高效的请求调度策略以及支持采用Prompt Cache和高效解码方法,实现两阶段加速;同时,在AI平台共享网关的基础上,EAS提供专属网关实现跨地域的服务调度,满足客户在安全隔离与访问控制方面的需求,降低客户高并发和高吞吐业务场景带来的网络风险。

阿里云云网络 高级产品解决方案架构师 任江波(硕丰)紧接着就AI场景算力池化网络方案与实践进行分享,模型的训练、 AI应用的迭代均离不开强大的算力支撑,如何整合异构算力,让算力池化,按需调度,让业务专注于自身。基于阿里云弹性公网 EIP、云企业网CEN、私网连接PrivateLink和云原生ALB等核心产品构建一张覆盖全球的异构AI算力网络,真正实现算网融合,算力资源池化,弹性调度,按需使用。支撑AI场景下高效数据采集、超大带宽训练数据运载、超低时延推理数据传输、超高安全工具调用和极致高效的算力调度能力。



在最后的客户互动讨论环节,来自阿里云网络、通义、PAI、ECS等团队的PDSA、PD和研发同学,与到场客户一起围绕企业AI(模型/应用等)建设及使用场景的典型问题展开深度探讨和交流,包括IaaS层核心力与网络需求、外部数据获取与模型优化、AI应用与智能体服务部署、基础架构重构与资源融合等相关的架构合理性、合规性、成本、质量等。

相关文章
|
5月前
|
人工智能 运维 安全
中企出海大会|打造全球化云计算一张网,云网络助力中企出海和AI创新
阿里云网络作为全球化战略的重要组成部分,致力于打造具备AI技术服务能力和全球竞争力的云计算网络。通过高质量互联网服务、全球化网络覆盖等措施,支持企业高效出海。过去一年,阿里云持续加大基础设施投入,优化海外EIP、GA产品,强化金融科技与AI场景支持。例如,携程、美的等企业借助阿里云实现业务全球化;同时,阿里云网络在弹性、安全及性能方面不断升级,推动中企迎接AI浪潮并服务全球用户。
945 8
|
3月前
|
存储 弹性计算 监控
阿里云顶会论文 OSDI'25 VIO 弹性直通
本文介绍阿里云团队发表于OSDI顶会的论文《To PRI or Not To PRI, That’s the question》,探讨云计算中虚拟化设备内存管理难题。论文提出纯软件方案VIO,通过内存预检、智能模式切换和自适应锁页设计,实现无需硬件支持的高效内存管理。该方案已在阿里云大规模部署,显著提升资源利用率,兼顾性能与兼容性。
158 0
阿里云顶会论文 OSDI'25 VIO 弹性直通
|
5月前
|
人工智能 架构师 关系型数据库
第二届固件技术峰会盛大召开,共探 AI 时代固件创新之路
阿里云联合字节跳动、固件联盟主办的第二届固件技术峰会在长沙顺利召开,探索AI时代固件技术发展新趋势。
|
5月前
|
人工智能 网络性能优化 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
阿里云在NSDI 2025会议上发表5篇主会论文,涵盖大模型训练网络故障诊断、仿真、性能优化及CDN流控算法等领域。其中,《Evolution of Aegis》提出两阶段演进路线,显著降低故障诊断时间;《SimAI》实现高精度大模型训练模拟;其他论文分别在CDN拥塞控制、GPU解耦推理和容器网络性能优化上取得突破。这些成果为AI大模型时代的云计算基础设施发展提供了重要支持。NSDI是计算机网络与系统研究领域的顶级会议,本次录取率仅12.5%。
|
3月前
|
机器学习/深度学习 人工智能 机器人
Meta AI Research:虚拟/可穿戴/机器人三位一体的AI进化路径
本文阐述了我们对具身AI代理的研究——这些代理以视觉、虚拟或物理形式存在,使其能够与用户及环境互动。这些代理包括虚拟化身、可穿戴设备和机器人,旨在感知、学习并在其周围环境中采取行动。与非具身代理相比,这种特性使它们更接近人类的学习与环境交互方式。我们认为,世界模型的构建是具身AI代理推理与规划的核心,这使代理能够理解并预测环境、解析用户意图及社会背景,从而增强其自主完成复杂任务的能力。世界建模涵盖多模态感知的整合、通过推理进行行动规划与控制,以及记忆机制,以形成对物理世界的全面认知。除物理世界外,我们还提出需学习用户的心理世界模型,以优化人机协作。
195 3
|
3月前
|
消息中间件 人工智能 监控
【云故事探索】NO.15:阿里云云原生加速鸣鸣很忙数字化
鸣鸣很忙集团作为中国最大休闲食品饮料连锁零售商,通过数字化与云原生技术实现快速扩张,4年完成其他企业10年的数字化进程。其采用阿里云全栈云原生方案,实现弹性扩容、智能补货、模块化开店等创新实践,支撑日均超430万交易数据稳定运行。未来将深化AI应用,推动供应链智能化与业务全面升级。
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
4月前
|
弹性计算 运维 监控
资源利用率提升50%:Serverless 驱动国诚投顾打造智能投顾新范式
通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
366 19