阿里云基础设施 AI Tech Day|AI Infra建设方案及最佳实践沙龙圆满结束

简介: 在AI迈向业务刚需的今天,阿里云AI Tech Day聚焦“智驱未来 云网随行”主题,携手VIVO、TCL、金蝶等数十家企业,共探AI基础设施(AI Infra)建设路径。活动深入解析算力、网络、存储三大核心能力,分享训练推理优化、数据高效流转等最佳实践,并通过分组讨论直击企业落地痛点,推动产研协同,共建高效、弹性、稳定的AI底座,助力企业智能化跃迁。

云布道师

在大模型与智能体(Agent)加速落地的时代,AI已从“技术尝鲜”迈向“业务刚需”。而支撑这场智能化跃迁的底层引擎,正是一套高效、弹性、稳定的AI基础设施(AI Infra)。

11月27日,阿里云基础设施 AI Tech Day 深圳站成功举办。本次活动以“智驱未来 云网随行:AI Infra建设方案及最佳实践”为主题,吸引了来自VIVO、TCL、金蝶、两面针、嘉立创科技、时空壶技术、犀思云、玉湖冷链、麦风科技、九九互动、技威时代、桥介数物、蓝鲲智创、Bidnex Limited等数十家领先企业的技术负责人与架构师齐聚一堂,与阿里云专家共探AI时代基础设施的演进路径与落地实践。

全栈能力解构:从算力、网络到存储,打造 AI Infra“铁三角”

随着AI应用场景从单点实验走向规模化生产,企业对基础设施的要求早已超越“有GPU可用”——低时延、高吞吐、弹性调度、数据高效流转,成为衡量AI Infra成熟度的核心指标。

活动开始,阿里云智能集团公共云事业部华南大区资深解决方案架构师姚蛟开场致辞中强调:“AI的竞争,正在演变为基础设施效率的竞争。唯有构建面向未来的云网存一体化底座,才能真正释放AI的业务价值。”

随后,阿里云华南大区解决方案架构师陈铖带来《企业AI加速场景解析:从业务价值到基础设施建设》主题分享。他指出,不同发展阶段的企业需采取差异化的AI建设策略——成熟企业重在基础设施复用与效能提升,创新企业则需快速验证、敏捷迭代,而底层Infra必须具备足够的弹性与开放性。

在技术纵深层面,阿里云多位专家系统拆解了AI Infra的关键能力:

• 面向训练/推理:阿里云智能集团计算产品高级解决方案架构师徐果详解《面向AI的阿里云容器解决方案》,展示如何通过ACK+ECI实现训练/推理任务的统一调度与秒级弹性;容器作为 AI 时代的 infra,在可观测性、资源管理、以及更上层的应用交付等场景都需要提供更多的能力,ACK作为这个入口,将阿里云在 Iaas 层沉淀多年的能力,用更加便捷的方式交付给客户,助力客户在 AI 的场景上提高迭代速度。

• 面向训练/推理:阿里云智能集团云网络高级产品专家彭昔敏揭秘《VPC RDMA加速网络性能提升的实践与演进》,PD分离的网络方案,让训练任务更高效,同时将分布式训练通信延迟压至微秒级,让“数据跑得比指令还快”;阿里云高性能VPC网络为应对AI应用挑战进行升级。它提供200Gbps大带宽灵骏实例,支持标准网络特性;即将发布的VPC RDMA将降低60%的端到端延迟;ENI Express机制改善了90%的长尾延迟。未来将致力于TCP协议创新、高性能云服务访问和最优时延调度,打造坚实的AI算力网络基础。

• 面向AI应用部署:阿里云智能集团云网络高级产品专家贺剑分享《基于AI的负载均衡及网络场景化最佳实践》,主要介绍了数据采集、AI训练及推理和AI应用全球化的网络最佳实践。 AI应用在全生命周期给网络带来了新的挑战,本次分享探讨了各个阶段的最佳实践和实战经验,覆盖了如何进行数据采集,训推一体网络的Qos控制、模型代理/MCP工具等推理场景的网关使用,以及AI应用如何全球化,让客户可以快速构建全球算力网络,助力AI应用落地。

• 面向AI数据存取:阿里云智能集团存储产品解决方案架构师王太平带来《面向AI的阿里云存储方案及最佳实践》,覆盖从PB级训练数据高效读取到模型版本管理的全链路优化。 存储作为AI Infra最容易被忽略的部件,却成为制约AI系统性能的关键。从模型训练、推理到AI Agent,阿里云提供了完善的存储选型以及最佳实践,帮助客户解决AI瓶颈,释放算力;并且提供了针对视频监控等场景的场景化AI原生能力,助力客户借助存储AI能力创造新的增值点,扩大营收。

深度碰撞:分组讨论直击企业AI落地痛点

“算、网、存三位一体,才是完整的AI Infra拼图。”一位参会嘉宾在茶歇交流中感慨道。

技术分享之外,本次活动特别设置沉浸式分组讨论环节。现场嘉宾按行业与业务场景分为多个小组,由阿里云PDSA及产品专家引导,围绕四大核心议题展开激烈探讨:

1. IaaS 层能力诉求:在AI训练/推理/智能体场景中,哪些基础设施能力最被看重?

2. 数据获取与合规:如何高效、安全地引入外部数据优化模型?

3. AI 服务部署策略:公网 vs 私网?如何平衡性能、安全与成本?

4. 异构资源融合:CPU/GPU/NPU如何统一调度?资源池化如何落地?

来自金蝶的代表提出:“我们在构建企业级AI助手时,最关注模型调用的稳定性与响应速度,这对网络SLA提出了极高要求。”嘉立创科技的技术负责人则聚焦于“如何在有限预算下实现训练资源的极致利用率”,引发小组关于Spot实例与弹性调度策略的深入讨论。而柳州两面针等传统制造企业,则更关心“如何从0到1构建AI基础设施,避免重复造轮子”。

共建共赢:AI Infra 不是选择题,而是必答题

活动尾声,主持人陈铖总结道:“今天的每一份提问、每一次碰撞,都是推动AI基础设施向前的力量。阿里云将持续深耕云网存协同能力,做企业AI化转型最坚实的底座。”

从理论到实践,从架构到落地,本次Tech Day不仅是一场技术盛宴,更是一次产研共创的深度对话。未来,阿里云将持续举办AI Infra系列沙龙,携手更多行业伙伴,智驱未来,云网随行!

相关文章
|
8月前
|
人工智能 安全 Serverless
五年磨一剑:Agent 时代追风不如造风
Serverless 是当前技术领域最有可能演进为 AI Native Infra 的技术架构,函数计算正着力于打造模块化的 Agent Infra 之剑,助力开发者从“生态应用者”进阶为“能力定义者”,最终推动 AI 技术走向开放共享的创新之路。
|
5月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
人工智能 弹性计算 算法
一文解读:阿里云AI基础设施的演进与挑战
对于如何更好地释放云上性能助力AIGC应用创新?“阿里云弹性计算为云上客户提供了ECS GPU DeepGPU增强工具包,帮助用户在云上高效地构建AI训练和AI推理基础设施,从而提高算力利用效率。”李鹏介绍到。目前,阿里云ECS DeepGPU已经帮助众多客户实现性能的大幅提升。其中,LLM微调训练场景下性能最高可提升80%,Stable Difussion推理场景下性能最高可提升60%。
127651 268
|
3月前
|
移动开发 weex Android开发
极致体验无小事:Weex购物车基础优化实践
手机淘宝购物车团队在完成Weex技术升级后,聚焦基础体验精细化治理,覆盖暗黑模式适配、热区对齐、皮肤样式优化、适老化改造与多终端兼容。通过舆情、数据与用户视角三轨驱动,实现从功能交付到体验交付的思维升级,打造更流畅、包容、个性化的购物体验。
|
Prometheus 监控 Kubernetes
阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽
本系列相关文章:阿里云容器服务GPU监控2.0基础篇1:基本功能使用阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误阿里云容器服务GPU监控2.0进阶篇1:剖析(Profiling)GPU使用情况必备知识阿里云容器服务GPU监控2.0进阶篇2:学会剖析(Profiling)GPU使用情况容器服务GPU监控2.0提供了监
2161 0
阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽
|
5月前
|
监控 JavaScript 编译器
从“天书”到源码:HarmonyOS NEXT 崩溃堆栈解析实战指南
本文详解如何利用 hiAppEvent 监控并获取 sourcemap、debug so 等核心产物,剖析了 hstack 工具如何将混淆的 Native 与 ArkTS 堆栈还原为源码,助力开发者掌握异常分析方法,提升应用稳定性。
662 68
CMake Error: The source “xxx“ does not match the source “yyy“ used to generate cache. Re-run cmake
CMake Error: The source “xxx“ does not match the source “yyy“ used to generate cache. Re-run cmake
1683 0
|
4月前
|
存储 人工智能 大数据
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
949 28
|
2月前
|
NoSQL MongoDB 数据安全/隐私保护
基于 Docker 的 MongoDB 部署与使用指南
本指南面向不同层级开发者,详解 MongoDB 6.0 + Docker 部署:从单节点开发环境到高可用副本集生产部署,涵盖初始化、备份恢复、安全认证、监控告警及常见问题排查,助力高效构建稳定可靠的 MongoDB 服务。
372 1

热门文章

最新文章