AI 为先的时代,企业如何深度用云?

简介: SOFAStack 源于支付宝,从服务金融行业中成长,正进一步走向全行业,服务更多的企业和客户,助力完成云原生化的升级,力争做 AI 时代最好的云原生应用的操作系统及底座。

「又一年云栖,SOFAStack 走向云原生深处。」

SOFAStack 5.0 与蚂蚁集团代码大模型 CodeFuse 全面融合,涵盖设计、研发、测试、运维等领域,提供从领域建模到智能运维的端到端 Copilot 产品解决方案,为企业打造新一代 AI 云原生 PaaS 平台。
1.png
*以下摘自蚂蚁集团数字科技事业群云原生科技产品总监马振雄在2023云栖大会的分享:

首先,自我介绍 SOFAStack 是什么 ?

大家都知道蚂蚁数字化三件套:mPaaS、SOFAStack 和 OceanBase。

以饭店为例,如果把业务比作一盘菜,云计算是水电煤这样的基础资源,数据是食材和调料,OceanBase 是一个能把食材数据做管理存储和查询计算的仓库,那么 SOFAStack 则像一个厨房,把食材和调料做高效的烹饪、切割以及装盘,将食材变成食物。mPaaS 更多像是饭店的前厅,帮助客户更好地获客、点餐、用餐以及结账,完成客户对客界面的完整体验。这就是蚂蚁数字三件套彼此之间的关系。

经过一系列实践,我们也观察到目前企业应用上云出现了三大趋势——更异构、更智能、更经济。今天的主题主要围绕这三大趋势展开,与大家分享蚂蚁云原生 PaaS 在核心系统上云的实践。

企业上云三大趋势:更异构

从互联网云原生企业,到越来越多传统行业,都在尝试核心系统上云,甚至已经不满足于集中式中心化的云,而是需要更轻量的小型云,或者边缘节点的云。在面对云的形态更加异构复杂的情况下,企业会更关注云背后统一平滑迁移的能力。

这是云原生第一个趋势——更异构,包含了资源异构、应用异构以及云形态异构。

  • 资源异构

目前有 70% 到 80% 的存量应用仍跑在云外虚拟化的资源上,还有一些自研云和外采云等多云资源,这背后需要将不同资源进行统一纳管。

传统做法是先用容器屏蔽异构资源,在传统的虚拟化之上叠加一层容器。因此资源没有办法充分做到统一精细化调度,整个资源利用率无法做到极致,并且运维复杂度直线提升,这也直接导致虚拟和容器在网络和存储方面,难以实现统一标准化管理。

所以我们在实践过程中,定义出下一代更符合云原生高效率的计算架构,通过把容器和虚拟化做统一拉平,统一调度。

同时,对于 AI 时代的到来,算力和 GPU 资源的消耗和需求是空前绝后,但是绝大部分企业在储备 GPU 算力过程当中,资源利用率基本上平均水位在 10% 到 30% 左右。这也意味着,企业需要对 GPU 精细化管理做统一的虚拟化和池化。

以往,传统 GPU 虚拟化只能做到物理卡的显存切分,比较粗粒度 GPU 的调度。SOFA 能够进一步将显存和算力两个维度做精细化切分,切分到最低颗粒度的调度,满足不同业务对于算力和显存的要求,同时对于不同业务需要,可以做到统一的精细化并行调度。

另外,传统的应用可能跑在虚拟机,新型的应用跑在容器,我们也支持 GPU 的算力和显存能绑定虚机和容器两种不同的形态,支持应用可以更平滑的迁移。

  • 应用异构

随着越来越多传统行业把核心系统进行上云,未来将面临着更多云下存量异构的应用上云,这些应用的特征在于开发框架不一致,通信协议不一致,编程语言以及所需部署资源的形态也都不一致,这些存量的系统称之为「历史包袱」,如果直接将「历史包袱」统一作为应用上云,将面对很多挑战。

首先新老系统之间无法在统一的管控界面上进行管控治理,意味着需要两套平台来管控新老应用。

其次,如果让应用改造成云原生的方式去上云,意味着需要相当大的改造成本,把单体式的应用,改造成云原生或微服务架构。因此我们需要一个更平滑、更轻量的方式,帮助企业的「历史包袱」顺利上云。

最后,即使改造成微服务之后,仍然面临着是不是要进一步将整个应用架构和框架能力做进一步解耦。

以蚂蚁集团为例,有成千上万个应用,这些应用都改造成了微服务的架构,但是蚂蚁横向基础设施团队,负责整个云原生的基础设施,他们需要将业务部门背后的几千个应用统一打包发布部署,配合底盘能力的升级,完成应用的变更,这对所有业务部门造成打扰,并且带来的变更故障风险。

基于蚂蚁的实践,通过将所有微服务的应用进一步升级成 Mesh 化的服务网格应用,通过植入 Mesh 编程的形式,我们将微服务耦合在应用里的 SDK 逻辑,下沉到服务网格里的编程,实现了应用和底层框架能力的解耦。

通过这种方式,能够在业务部门无感的同时,横向基础设施团队能够高效进行框架能力升级。以往,我们一年只能做一到两次升级,随着全面 Mesh 化后,演变为一个月能够做十几次甚至几十次底盘能力和框架能力的升级,极大提升了企业的组织效率。

Mesh 在帮助我们进行应用改造的同时,也能够进一步支持平滑的迁移。应用在接入Mesh 过程当中,没有接入 Mesh 和接入 Mesh 的应用可以平滑通信,在同一个平台上进行管控和服务的治理。

  • 云形态的异构

刚才提到的越来越多传统行业不满足于建一些中心化的大型云,需要在周围边缘的节点建立一些小型的云,这些云需要轻量化的方式,但是需要跟中心云统一通信协同和统一纳管。

当我们尝试去大力发展边缘业务的同时,随着边缘设备增多,边缘业务逐渐复杂,意味着传统中心化的云计算计算存储网络模型,已经不太适合于边缘业务节点对于时效、对于容量和算力的要求。

其次,对于边缘形态业务的丰富,包括边缘的智能,边缘的实时计算,边缘的分析等等这些新兴业务的诞生,意味着边缘云背后异构业务统一运维复杂度也在上升。对于中心云、边缘云、端,这三个节点如何进行统一的资源管控和应用管控,带来极大挑战。

对此,蚂蚁的实践是提出了统一的云边协同架构。核心准则是:云端统一管控,边缘端在弱网和断网的情况下自治,保证稳定性和业务的延续。

企业上云三大趋势:更智能

大模型和 AIGC 都在寻找应用场景,如果大模型是非常强劲的发动机,客户需要的是装有这台强劲发动机背后的一辆宝马,也就是真正能让发挥作用的场景。

蚂蚁认为在研发效能领域,有着非常好的大模型落地场景,因为大模型和 AIGC 技术可以为架构师、开发人员、测试人员带来结构性和颠覆性的研发模式和测试模式的重构,带来研发和测试效率的提升。

蚂蚁自研 340 亿参数级别 CodeFuse 代码大模型,支持 JavaScript、Python、Go、C++ 等 40 多种编程语言。在 HumanEval 评测中,CodeFuse 得分 74.4%,超过 GPT-4(67%)的成绩。

本次 SOFAStack5.0 升级,CodeFuse 已经与 SOFA 产品线全面融合,通过人机交互助手提升日常代码研发、测试、运维过程中的效率和质量。对企业而言,可以显著提升研发效能,降低总体成本。

在运维方面,核心系统上云背后,稳定性要求非常高,最重要也是最核心是两大风险敞口:

  • 变更,行业普遍认为,75% 甚至 80% 的故障都是由变更引起,变更永远是最大的罪魁祸首。如何通过智能化的能力,进一步降低变更所带来的故障风险?这是我们需要思考的首要原则。
  • 硬件,从以前核心系统承载主机系统的稳定,到开始尝试往去 IOA 的方式落到云,落到分布式 X86 集群,这意味着硬件稳定性的下降,同时也代表着故障不可避免,在故障不可避免的前提下,如何提高发现问题、定位问题以及解决问题的效率,这是我们思考的第二个核心原则。

对于变更而言,蚂蚁有完整的变更三板斧:可监控,可灰度,可回滚。这九个字,包含着更复杂变更前置和后置的校验。这背后运用到大量的智能化和自动化能力,帮助运维人员进一步提效,完成变更风险的防控。

另外,对于硬件风险既然不可避免,如何去提高故障应急效率,为此蚂蚁沉淀的体系是 1-5-10 的体系,即 1 分钟发现故障,5 分钟定位故障的原因,再到 10 分钟恢复故障,完成故障的止血和恢复。

为此,我们升级了蚂蚁 SRE 技术风险体系与故障应急体系,通过智能化能力升级,完成智能的监控、智能的降噪,智能的运维,智能异常检测,智能的根因定位,再到智能的自愈等等。

企业上云三大趋势:更经济

任何时候,降本仍然是每个行业极致追求的目标。同时对于 2030「碳达峰」以及 2060「碳中和」来说,更需要思考在云原生发展到未来的阶段,如何进一步进行绿色减排?整个云计算爆发期给整个社会和企业带来不可避免的能耗问题,应该在哪个环节尝试去做一些减排和降本的工作?

我们认为,云计算和云原生未来的趋势重点应该放在算力的应用阶段。

为此,蚂蚁定义了根技术之一的绿色计算,通过绿色计算背后的三个核心技术——在离线混部、云原生分时调度,以及 AI 智能弹性容量,能够帮助更多企业进一步降本减排。

通过绿色计算的实践,我们在过去几年从以前的机房资源利用率 9% 提升了 4 倍,到接近 40%,同时每年节省约 600 万度的电,包括前几年已经完成超过 1600 吨碳排放,无论是从资源利用率提升,还是到节能减排,都做出了不错的成效。

对于在离线混部而言,面对的挑战是资源利用率低效,以前离线的业务和在线的业务是分开部署。我们通过在离线的混部,白天密集型计算型消耗的在线业务,再到晚上离线数据跑批的业务进行统一的混合部署,提升部署密度的同时,加强在不同级别,包括 OS 内核隔离,保证资源稳定性的同时,通过错峰混部方式提升资源利用率。

此外,我们还进一步实践了云原生分时调度,分时调度背后核心原理是把整个应用分成运行态和保活态。运行态是完整热的状态,全功耗运行,保活态是以更低功耗、更低资源部署的要求稳定运行,但它可以非常快速地转化成运行形态,我们称之为温的状态。这意味着温可以快速实时地一键转换成运行态,同时资源部署要求非常低,意味着可以用更低的资源消耗,同时去管理更多错峰的在线业务。

最后对于容量风险,很多时候会发现,除了变更带来的故障风险,其实容量不可预测也会带来很多的故障或者风险。

通过智能 AI 模型,在事前通过持续等不同基线数据分析,能够更快、更早地识别容量风险;同时,通过智能 AI 模型去实现更智能的弹性伸缩算法,从被动式响应式的扩缩容,变成预测式前置性的扩缩容。

基于更异构、更智能、更经济三个趋势背后一些洞察、思考和实践,我们升级了蚂蚁云原生 SOFAStack 整个的 PaaS,SOFAStack5.0 升级包含四个内涵——智能、可信、绿色以及多云。

通过绿色计算能力,让 SOFAStack 能够减排降本,变得更绿色;通过大模型 AIGC技术,从研发到测试再到运维,全面升级智能化,让 SOFAStack 变得更智能;通过对 GPU 和 CPU 的混合调度,以及定义下一代云原生计算架构,让 SOFAStack 变得更多云;通过对计算环境、软件供应链以及全方面的安全能力内置的增强,让 SOFAStack 变得更可信。

SOFAStack 源于支付宝,从服务金融行业中成长,正进一步走向全行业,服务更多的企业和客户,助力完成云原生化的升级,力争做 AI 时代最好的云原生应用的操作系统及底座。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
存储 人工智能 搜索推荐
解锁AI新境界:LangChain+RAG实战秘籍,让你的企业决策更智能,引领商业未来新潮流!
【10月更文挑战第4天】本文通过详细的实战演练,指导读者如何在LangChain框架中集成检索增强生成(RAG)技术,以提升大型语言模型的准确性与可靠性。RAG通过整合外部知识源,已在生成式AI领域展现出巨大潜力。文中提供了从数据加载到创建检索器的完整步骤,并探讨了RAG在企业问答系统、决策支持及客户服务中的应用。通过构建知识库、选择合适的嵌入模型及持续优化系统,企业可以充分利用现有数据,实现高效的商业落地。
104 6
|
2月前
|
人工智能 自然语言处理 机器人
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
10 月 18 日, InfoQ《C 位面对面》栏目邀请到阿里云 CIO 及 aliyun.com 负责人蒋林泉(花名:雁杨),就 AI 时代企业 CIO 的角色转变、企业智能化转型路径、AI 落地实践与人才培养等主题展开了讨论。
4082 67
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
|
1天前
|
人工智能 自然语言处理 数据挖掘
从行业痛点到AI前沿:揭秘AGI时代企业培训的终极之选
近几年接触到的各类培训合作方越来越多,从国际咨询巨头、互联网科技培训平台,到本土独角兽型的专业培训公司;从专攻新技术与创新场景的培训团队,到深谙传统行业痛点的咨询顾问。作为一名在央企、国企、上市公司人力资源培训条线深耕多年的HR负责人,深知在这片竞争激烈的培训服务蓝海中,寻找高质、高效的合作伙伴并不简单,因为企业培训的逻辑正在悄然改变。
|
8天前
|
人工智能 自然语言处理 算法
AI时代的企业内训全景图:从案例到实战
作为一名扎根在HR培训领域多年的“老兵”,我越来越清晰地感受到,企业内训的本质其实是为企业持续“造血”。无论是基础岗的新人培训、技能岗的操作规范培训,还是面向技术中坚力量的高阶技术研讨,抑或是管理层的战略思维提升课,内训的价值都是在帮助企业内部提升能力水平,进而提高组织生产力,减少对外部资源的依赖。更为重要的是,在当前AI、大模型、Embodied Intelligence等新兴技术快速迭代的背景下,企业必须不断为人才升级赋能,才能在市场竞争中保持领先。
|
1月前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
1月前
|
人工智能 数据库 决策智能
拥抱Data+AI|如何破解电商7大挑战?DMS+AnalyticDB助力企业智能决策
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第1篇,聚焦电商行业痛点,探讨如何利用数据与AI技术及分析方法论,为电商注入新活力与效能。文中详细介绍了阿里云Data+AI解决方案,涵盖Zero-ETL、实时在线分析、混合负载资源隔离、长周期数据归档等关键技术,帮助企业应对数据在线重刷、实时分析、成本优化等挑战,实现智能化转型。
拥抱Data+AI|如何破解电商7大挑战?DMS+AnalyticDB助力企业智能决策
|
1月前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
1月前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
103 4
|
1月前
|
数据采集 人工智能 搜索推荐
|
1月前
|
数据采集 人工智能 搜索推荐
大咖说|Data+AI:企业智能化转型的核心驱动力
在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的Data+AI力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本文将讨论企业采用Data+AI平台的必要性及其在企业智能化转型中的作用。
163 0
大咖说|Data+AI:企业智能化转型的核心驱动力