客户实践:Kimi万亿参数大模型的全球云网架构演进之路
2025年云栖大会 | 云网络技术分论坛,月之暗面Kimi 高级工程师 裴丰硕带来《AI无界-Kimi万亿参数大模型的全球云网架构演进之路》的主题演讲,介绍Kimi大模型迈向万亿参数的演进发展,以及过程中AI Infra和高息功能AI网络的建设经验。
产品领导力:简单易用的智能云网络,助力企业出海和AI创新
2025年云栖大会 | 云网络技术分论坛,阿里云智能集团 云网络产品线负责人祝顺民带来《简单易用的智能云网络,助力企业出海和AI创新》的主题演讲,秉承云网络“让网络更简单”的愿景,持续技术创新,今年围绕增强确定性、提效自动化、深耕智能化和敏捷全球化四大方向带来全新技术思考以及产品服务升级,同时带来全新产品生态合作计划发布。
阿里云百炼安全白皮书
阿里云百炼依托云原生技术底座与通义大模型能力体系,构建起覆盖模型训练、部署、推理服务到应用集成的全链路安全闭环。围绕客户数据主权、负责任的AI以及云原生安全保障三大核心方向,阿里云百炼打造了安全可信的一站式MaaS平台,助力企业安心拥抱AI。
AI 原生应用架构白皮书
15位专家联名推荐、20w+字、40位一线工程师联合撰写,首次围绕 AI 原生应用的 DevOps 全生命周期,将概念和重难点进行系统的拆解,并提供解题思路。该白皮书会结合业界的最新动态,不定期更新,当前是2025年10月24日发布的V1.0.1版本。
UPN512技术架构白皮书
随着AI算力超节点的演进,xPU Scale up 系统遇到新的挑战,基于此,阿里云提出UPN(Ultra Performance Network)架构,旨在构建“大规模、高性能、高可靠、低成本、可扩展” 的 Scale up 网络系统,本文阐述UPN512系统的关键架构设计。
《Ceph集群数据同步异常的根因突破与恢复实践》
本文以某政务云平台Ceph集群扩容后的数据同步异常故障为案例,剖析云原生分布式存储的运维挑战。该故障因CRUSH算法"firstn"策略导致新节点OSD被边缘化、默认PG配置不均引发负载过高,叠加容器化部署中emptyDir日志IO瓶颈及DNS解析延迟,形成数据同步停滞的恶性循环。排查通过日志分析、源码溯源定位核心问题,紧急阶段采用CRUSH规则调整、存储介质替换等恢复系统,长期从架构优化(DaemonSet+本地PV)、算法适配(PG数量重算)、运维闭环(灰度扩容+三级监控)构建治理体系。
阿里云AI原生架构与企业实践专场分享材料
云为AI提供了坚实的基础设施支撑。今天,AI原生架构的趋势已然到来。本次活动聚焦阿里云云原生产品技术领域,分享从AI原生应用开发范式、Agent快速开发与构建、AI应用工程化实践、全栈可观测等全链路AI原生应用架构解决方案和企业真实实践,与企业共同探讨如何通过向更先进的架构演进来适应AI时代的快速变化,为迎接新的增长做好准备。