阿里云易立:以云原生之力,实现大模型时代基础设施能力跃升 | KubeCon 主论坛分享

本文涉及的产品
简介: 阿里云易立:以云原生之力,实现大模型时代基础设施能力跃升 | KubeCon 主论坛分享

今天,由云原生计算基金会 CNCF 主办的 KubeCon+CloudNativeCon+OpenSourceSummit China 2023 主论坛在上海举办。阿里云容器服务负责人易立在主论坛发表演讲,介绍阿里云为大模型提供的基础设施能力,以及通过云原生 AI 的方式助力大模型普惠提效。


易立在主论坛现场演讲


大模型无疑是 AI 领域最重要的进展之一,生成式 AI 的惊艳表现让关于下一代人工智能“魔力”的讨论进入街头巷尾,也让云计算的行业价值和技术核心迎来再次升级。易立认为,“规模”、“性能”和 “效率”正在成为影响大模型生产和应用的三个核心因素,也是企业基础设施在面临生产、使用大模型时的全新挑战。“为了应对这些挑战,我们需要算法突破,也需要工程创新”,易立表示。



而解决规模、性能、效率的问题,需要与社区共同探索与突破。多年来,阿里云积极参与云原生社区生态建设,推动云原生 AI 应用更高效地运行在 Kubernetes 上,包括向 CNCF 捐献云原生数据集编排与加速项目 Fluid,以及 AI 工作负载管理框架 KubeDL 等;推动 Kubernetes Scheduler Framework 以更原生的方式支持 AI 工作负载。例如,OpenAI 在其大规模训练集群中使用了阿里云开源贡献的 Coscheduling 调度插件,大幅优化了资源分配效率。



易立介绍,“在支持企业大模型AI创新过程中我们发现,如何有效地管理 AI、大数据任务及其对异构算力资源的调度,是当前面临的新挑战。”


为了让企业以统一的方式支持微服务、大数据、AI 应用等多样化工作负载,阿里云开源了云原生调度系统 Koordinator。它是基于阿里巴巴大规模调度实践孵化出的开源 Kubernetes 调度器实现。在开源近1年半的时间里,Koordinator 已被小红书、小米、360、爱奇艺等多家企业应用于生产环境。“我们正在推进 Koordinator 捐赠到 CNCF 基金会,保持项目长期健康地发展。”易立介绍。


除了调度优化方面的工作,阿里云容器服务 ACK 和云原生 AI 套件构建了包含 GPU/NPU 高效运维、AI 作业管理、数据集访问加速、弹性训练与推理等完整的AI基础设施能力,在此之上既支撑了阿里云 PAI、灵骏智算、通义千问、妙鸭等 AI 平台与服务,也支持了多种开源 AI 框架和大模型方案。这些产品化的技术能力已被广泛应用任意门、小米、Recruit 等海内外企业,帮助客户快速构建自己的 AI 系统,显著提升 GPU 资源效率和 AI 工程效率。



此外,如何有效运用大模型,将 AIGC 技术在各行业落地,成为行业关注焦点。发展开源生态是降低大模型应用使用门槛、推动人工智能技术普惠的必由之路。


阿里云是开源的受益者,也是积极贡献者,此前阿里云公布全新的 1+4 开源战略,持续投入 AI、云原生、数据库、大数据、操作系统等领域的开源工作,持续提升开发者服务和企业创新支持,为开源创新提速。易立表示:“开源社区就像一个神经网络,我们每个人都是其中一个神经元,紧密相连、互相协作。只有不断地连接、贡献、反馈,开源生态才能释放出无限的潜能与创新。”


当前,阿里云已经形成了基础设施即服务(IaaS)、平台即服务(PaaS)和模型即服务(MaaS)三层架构,可为企业提供从大模型训练到推理、服务的端到端解决方案。以模型为中心的开发范式已成为新趋势,而云计算是 AI 普及和普惠的最好选择。未来基于云计算技术,以基础大模型为底座,将会推动全行业智能化升级。


现场精彩速递 DAY2


相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
1月前
|
人工智能 监控 Cloud Native
iLogtail 2.0 来了;通义灵码下载量破百万丨阿里云云原生 2 月产品月报
iLogtail 2.0 来了;通义灵码下载量破百万丨阿里云云原生 2 月产品月报
|
1月前
|
自然语言处理
阿里云百炼大模型服务--企业知识检索问答指南
阿里云百炼提供的企业知识检索问答应用可以帮助大家实现让大模型瞬间“开挂”的技能。结合上传的知识数据,大模型识别解析学习文档内容,最终给出生成式回复。我们在通义千问-Turbo/Max大模型基础上,将文件上传、读取、切片、向量化等过程都开发好预置在应用中,实现开箱即用,更能满足您的日常需求。
|
4天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
68 2
|
10天前
|
监控 Serverless API
阿里云函数计算的工作原理与事件驱动模型密切相关
【4月更文挑战第17天】阿里云函数计算的工作原理与事件驱动模型密切相关
64 4
|
18天前
|
消息中间件 人工智能 监控
|
18天前
|
机器学习/深度学习 编解码 人工智能
阿里云百炼的模型怎么选择并体验
本模块为您提供大模型服务平台百炼中支持的模型类型,便于您快速根据自己的需求选择所需模型!
|
20天前
|
人工智能 自然语言处理 测试技术
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
31 1
|
20天前
|
云安全 人工智能 定位技术
交通运输部公路科学研究院携手阿里云共建交通行业大模型
交通运输部公路科学研究院携手阿里云共建交通行业大模型
22 0
|
26天前
|
消息中间件 NoSQL Kafka
云原生最佳实践系列 5:基于函数计算 FC 实现阿里云 Kafka 消息内容控制 MongoDB DML 操作
该方案描述了一个大数据ETL流程,其中阿里云Kafka消息根据内容触发函数计算(FC)函数,执行针对MongoDB的增、删、改操作。
|
1月前
|
人工智能 数据可视化 API
阿里云百炼大模型服务--流程编排接入快速上手指南
流程编排是一种面向开发者的可视化开发工具,支持LLM、API、脚本等类型节点,旨在简化接入大型语言模型(LLM)流程,同时提供应用流程的全生命周期管理,包括流程的编排、试验、部署等,为开发者提供自定义AI应用开发一站式服务。

热门文章

最新文章

  • 1
    Serverless 应用引擎产品使用之数据文件(例如sdxl)超过了OSS(对象存储服务)的单个上传大小限制(5GB)如何解决
    7
  • 2
    Serverless 应用引擎产品使用之在函数计算中,数据库访问失败如何解决
    12
  • 3
    Serverless 应用引擎产品使用之在阿里云函数计算中发现没有NAC(Native Application Component)选项,且无法自己上传MOD(模块)如何解决
    14
  • 4
    Serverless 应用引擎操作报错合集之在阿里函数计算中,sd部署启动报错CAExited 报错信息“operation not permitted”如何解决
    11
  • 5
    Serverless 应用引擎操作报错合集之在阿里函数计算中,SD Controlnet Depth 运行过程中出现错误“urllib3 v2.0 only supports OpenSSL 1.1.1+”如何解决
    11
  • 6
    Serverless 应用引擎操作报错合集之在阿里云函数计算中,laravel zip包使用示例的start.sh脚本启动时出现错误代码如何解决
    13
  • 7
    Serverless 应用引擎操作报错合集之在阿里云函数计算中,服务器调用FC函数时出现 "[Errno -3] Temporary failure in name resolution)" 错误如何解决
    11
  • 8
    Serverless 应用引擎操作报错合集之在Serverless 应用引擎中,部署过程中遇到错误代码如何解决
    13
  • 9
    Serverless 应用引擎操作报错合集之在 Serverless 应用引擎中,遇到“没法通过 head 传递灰度标识”如何解决
    13
  • 10
    Serverless 应用引擎操作报错合集之在阿里函数计算中,函数执行超时,报错Function time out after如何解决
    12