阿里云易立:以云原生之力,实现大模型时代基础设施能力跃升 | KubeCon 主论坛分享

本文涉及的产品
函数计算FC,每月15万CU 3个月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 阿里云易立:以云原生之力,实现大模型时代基础设施能力跃升 | KubeCon 主论坛分享

今天,由云原生计算基金会 CNCF 主办的 KubeCon+CloudNativeCon+OpenSourceSummit China 2023 主论坛在上海举办。阿里云容器服务负责人易立在主论坛发表演讲,介绍阿里云为大模型提供的基础设施能力,以及通过云原生 AI 的方式助力大模型普惠提效。


易立在主论坛现场演讲


大模型无疑是 AI 领域最重要的进展之一,生成式 AI 的惊艳表现让关于下一代人工智能“魔力”的讨论进入街头巷尾,也让云计算的行业价值和技术核心迎来再次升级。易立认为,“规模”、“性能”和 “效率”正在成为影响大模型生产和应用的三个核心因素,也是企业基础设施在面临生产、使用大模型时的全新挑战。“为了应对这些挑战,我们需要算法突破,也需要工程创新”,易立表示。



而解决规模、性能、效率的问题,需要与社区共同探索与突破。多年来,阿里云积极参与云原生社区生态建设,推动云原生 AI 应用更高效地运行在 Kubernetes 上,包括向 CNCF 捐献云原生数据集编排与加速项目 Fluid,以及 AI 工作负载管理框架 KubeDL 等;推动 Kubernetes Scheduler Framework 以更原生的方式支持 AI 工作负载。例如,OpenAI 在其大规模训练集群中使用了阿里云开源贡献的 Coscheduling 调度插件,大幅优化了资源分配效率。



易立介绍,“在支持企业大模型AI创新过程中我们发现,如何有效地管理 AI、大数据任务及其对异构算力资源的调度,是当前面临的新挑战。”


为了让企业以统一的方式支持微服务、大数据、AI 应用等多样化工作负载,阿里云开源了云原生调度系统 Koordinator。它是基于阿里巴巴大规模调度实践孵化出的开源 Kubernetes 调度器实现。在开源近1年半的时间里,Koordinator 已被小红书、小米、360、爱奇艺等多家企业应用于生产环境。“我们正在推进 Koordinator 捐赠到 CNCF 基金会,保持项目长期健康地发展。”易立介绍。


除了调度优化方面的工作,阿里云容器服务 ACK 和云原生 AI 套件构建了包含 GPU/NPU 高效运维、AI 作业管理、数据集访问加速、弹性训练与推理等完整的AI基础设施能力,在此之上既支撑了阿里云 PAI、灵骏智算、通义千问、妙鸭等 AI 平台与服务,也支持了多种开源 AI 框架和大模型方案。这些产品化的技术能力已被广泛应用任意门、小米、Recruit 等海内外企业,帮助客户快速构建自己的 AI 系统,显著提升 GPU 资源效率和 AI 工程效率。



此外,如何有效运用大模型,将 AIGC 技术在各行业落地,成为行业关注焦点。发展开源生态是降低大模型应用使用门槛、推动人工智能技术普惠的必由之路。


阿里云是开源的受益者,也是积极贡献者,此前阿里云公布全新的 1+4 开源战略,持续投入 AI、云原生、数据库、大数据、操作系统等领域的开源工作,持续提升开发者服务和企业创新支持,为开源创新提速。易立表示:“开源社区就像一个神经网络,我们每个人都是其中一个神经元,紧密相连、互相协作。只有不断地连接、贡献、反馈,开源生态才能释放出无限的潜能与创新。”


当前,阿里云已经形成了基础设施即服务(IaaS)、平台即服务(PaaS)和模型即服务(MaaS)三层架构,可为企业提供从大模型训练到推理、服务的端到端解决方案。以模型为中心的开发范式已成为新趋势,而云计算是 AI 普及和普惠的最好选择。未来基于云计算技术,以基础大模型为底座,将会推动全行业智能化升级。


现场精彩速递 DAY2


相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
打赏
0
相关文章
阿里云云原生NDR发布:全流量防御能力升级
阿里云发布云原生NDR,提供全流量威胁检测与响应能力。该产品无需部署,支持一键接入、自动留存攻击报文,并具备多引擎关联分析、资产风险管理等功能,有效提升高级威胁应对能力。典型客户案例显示,NDR在重保防护、敏感数据泄露和日志合规等场景中表现出色。总结来看,NDR强调原生化、性价比和强检测,帮助用户简化安全运营并降低成本。
37 11
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 12 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
108 12
阿里云PolarDB:引领云原生数据库创新发展
阿里云PolarDB引领云原生数据库创新,2024云栖大会将分享其最新发展及在游戏行业的应用。PolarDB凭借弹性、高可用性、多写技术等优势,支持全球80多个站点,服务1万多家企业。特别是针对游戏行业,PolarDB助力Funplus等公司实现高效运维、成本优化和业务扩展。通过云原生能力,PolarDB推动游戏业务的全球化部署与快速响应,提升用户体验并保障数据安全。未来,PolarDB将继续探索AI、多云管理等前沿技术,为用户提供更智能的数据基础设施。
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
390 18
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索
本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。
271 14
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
202 2
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
116 2
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等