云未来、新可能 - 绿色、无处不在、可信的计算

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
可观测链路 OpenTelemetry 版,每月50GB免费额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为 “云未来,新可能” 的演讲,分享了阿里云基于大规模云原生实践下的技术趋势判断和技术创新进展。

2021 年 12 月 9 日至 10 日,KubeCon + CloudNativeCon + OpenSourceSummit China 2021 在线上举办。阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为 “云未来,新可能” 的演讲,分享了阿里云基于大规模云原生实践下的技术趋势判断和技术创新进展。


以下为分享全文实录。


图片 1.png

易立,阿里云资深技术专家、容器服务研发负责人


大家好,我是阿里云易立,目前负责容器服务产品线,也是 CNCF governing board 的成员。这是第二次在 KubeCon 与大家在线上交流。今天,我会分享阿里云在云原生领域的实践和思考,以及我们对未来的一些判断。


云原生 - 数字经济技术创新基石


2020 年以来,新冠疫情改变了全球经济的运行与人们的生活。数字化的生产与生活方式成为后疫情时代的新常态。今天,云计算已经成为社会的数字经济基础设施,而云原生技术正在深刻地改变企业上云和用云的方式。


阿里云对云原生的定义是应云而生的软件、硬件和架构,帮助企业最大化获得云价值。具体来说,云原生技术给企业带来 3 个核心的业务价值:


1. 敏捷高效 - 更好支持 DevOps 提升应用研发和交付效率,提升弹性和资源利用率。帮助企业可以更好应对环境变化,降低计算成本。


2. 加强韧性 - 利用容器技术可以简化业务上云,更好支撑微服务应用架构;进一步加强 IT 企业基础设施和应用架构韧性,保障企业业务连续性。


3. 融合创新 - 5G,AIoT,AR/VR 等新技术快速发展,云原生技术让计算无处不在,可以更好地支持的新的融合计算形态。


如果说云原生代表了云计算的今天,那么云计算的未来会是什么样?


云未来,新可能


数据中心作为数字经济的动力引擎,其能耗增长已成为云计算发展中不可忽略的问题。据报道,2020 年数据中心耗电量超过国内总用电量的 2.3%。而且占比将逐年增加。阿里云在身体力行地推动绿色计算,比如利用浸没式液冷服务器来降低数据中心 PUE。除此之外,我们看到数据中心的计算效率也有很大提升空间,据统计,全球数据中心的平均资源利用率不到 20%,这是巨大资源和能源浪费。


而云计算的本质,就是把离散的算力,聚合成更大的资源池,通过优化的资源调度,充分削峰填谷,提供极致的能效比。


新一代统一资源调度助力绿色计算

在阿里集团实现了全面上云之后,我们启动了一个新的计划——利用云原生技术,对阿里集团分布在全球数十个地域的数千万核的服务器资源,进行统一资源调度,全面提升利用率。通过阿里集团、阿里云众多团队的努力,今年双 11,统一调度项目交出了一份闪亮的答卷!


图片 2.png


基于 Kubernetes 和阿里自研的统一调度器 Cybernetes,通过一套调度协议、一套系统架构,对底层的计算资源进行智能化调度,向上支撑多种工作负载的混合部署,在保障应用 SLO 的前提下,提升资源利用率。让电商的微服务、中间件等应用,搜推广、MaxCompute 的大数据和 AI 业务,全部运行在统一的容器平台基础之上。为阿里集团每年可以减少数万台服务器算力的采购,带来数以亿计的资源成本优化。


其中单集群规模超过上万节点、百万核。任务调度效率达到每秒 2 万个,满足搜索、大数据、AI 等高吞吐、低延迟业务调度编排需求,性能卓越。统一调度帮助阿里双 11 大促成本降低 50%,生产环境常态化 CPU 利用率 65%。


云原生 “Green AI” 应对 AI 大模型训练的挑战


多模态预训练 AI 大模型被广泛认为是迈向通用人工智能的关键路径。


大家熟知的 GPT-3,拥有千亿级参数,在某些自然语言理解领域可以实现比肩人类的处理能力。阿里巴巴达摩院最新发布的超大规模预训练模型 M6 已经进入了 10 万亿参数时代。M6 拥有多模态的中文任务处理能力,尤其擅长设计、写作、问答,在电商、服装、科学研究等领域有广泛应用前景。


Kubernetes 对深度学习任务的支持已经逐渐成熟。然而,超大规模模型训练依然面临着严峻的挑战。万亿级参数模型训练,动辄需要数千张 GPU、数十 T 显存的计算资源,花费数十天才能完成训练。


为了应对这些挑战,Cybernetes 在原生 Kubernetes 基础之扩展了面向大规模 AI 任务调度能力。通过高效的异构算力调度,数据感知和访问加速,有效提升了 GPU 计算效率;通过错峰调度,充分利用集群空闲资源。支撑了云原生的 PAI-Whale 框架高效的并行模型训练。


图片 3.pngimage.gif


M6 最终实现了仅用 512 张 GPU,在 10 天内可训练出十万亿规模的超大模型。极大提升模型训练的效率和资源利用率。与国际同等规模模型相比,能耗降低超过八成,真正实现了绿色 AI。


云边端协同实现无处不在的计算


随着 5G、物联网、AR/VR 等新技术的不断成熟,数字世界与物理世界在进一步融合。


OpenYurt 是业界首个开源的“零侵入的”云原生边缘计算项目,去年 11 月成为 CNCF Sandbox 项目。

image.gif

图片 4.png


边缘计算面临着算力分散、资源异构以及弱网连接等技术挑战。Openyurt 基于 Kubernetes 构建了云边协同计算框架。在过去两年已在视频直播、云游戏、物流交通、智能制造、城市大脑等众多行业落地。


今年,我们希望以云原生的方式来实现设备孪生,高效地解决物联网场景下海量分布式设备的管理和运维挑战。经历了 OpenYurt 与 EdgeX Foundry 社区, VMWare、Intel 等工程师的合作,实现对端设备和应用管理的统一建模和统一管理。下面我将为大家介绍一个利用 OpenYurt 实现无处不在计算的案例。


图片 5.png


 机场运营效率对满足日益增长的客流物流需求至关重要,与此同时机场安全性方面的挑战也愈发突出。在智慧机场项目中,通过 OpenYurt 构建的云边端一体化架构,完成摄像头、传感器、边缘 AI 一体机等构筑的机场感知层,和基于云平台搭建全局统一管理和大数据平台,从而实现机场全局数据共享和分析,进而实现机场全景视频拼接、安全的全域监控、物理可视全视野等能力。


隐私增强计算护航数据安全

随着移动互联网、物联网的快速发展,无处不在的计算时刻产生着海量信息。如何让基础设施更加可信,保障隐私数据不被窃取、篡改、滥用成为重要的挑战。随着国家《数据安全法》的施行,隐私增强计算业务得到了业界越来越多的重视。


据 Gartner 预测,到 2025 年,60% 的大型机构将采用 “隐私增强计算技术” 来处理不可信环境或多方数据分析用例中的数据。


隐私增强型计算中一个重要的技术分支,是通过基于硬件的可信执行环境 TEE 实现数据保护。TEE 的安全性是基于边界的安全模型,它的安全边界非常小并且存在于硬件芯片本身,使 TEE 内执行的应用,不再担心来自其他应用、其他租户或者平台方的威胁。 


图片 6.png


将容器与可信执行环境相结合的机密容器技术,进一步提升了对敏感信息的保护。一方面容器与完整的 OS 相比,攻击面更小,另一方面基于容器的安全软件供应链可以保障应用来源的可信、可追溯。


Inclavare Containers 是阿里开源的,业界第一个面向机密计算的容器运行时项目。今年 9 月成为 CNCF 沙箱项目。机密容器可以将机密计算底层系统的全部复杂性都隐藏起来,遵循既有的云原生标准化接口和规范,兼容现有的生态。这将加速这项技术的普及。在社区中协作中,我们看到来自 Kata Container 社区的工程师也在探索相关方向。

image.gif

图片 7.png


正如图中所示,由 Inclavare Containers 项目支持的 SGX 机密容器和由 Kata Confidential Container 项目支持的基于 MicroVM 的机密容器,在技术形态上具有高度的相似性。为此,两个项目的开发者在积极进行合作,通过互相复用彼此的技术组件,最大化了技术价值,并为不同的 TEE 实现实现统一的开发者体验。这也正体现了开源社区的力量。


从技术角度来看,相比于 runC 和 Kata 容器运行时,包含了敏感数据的容器镜像需要事先进行加密和数字签名;镜像的下载过程在 TEE 内进行,来确保镜像解密过程的安全性;相关密钥会通过机密计算特有的远程证明机制所建立的安全可信信道传递到 TEE 中,以确保其内容不会被泄露和篡改;最后,整个机密容器在运行时都运行在硬件防护的 TEE 中,其计算过程中的数据在内存中是加密的,并受完整性保护。


通过云原生技术普及数字化信任,还是一个新兴的技术领域,非常期待大家一起共建!


加速云原生人才梯队培养


我们相信任何一项新技术的发展和普及,都要依靠专业的人才去驱动。作为云原生领域的实践者和先行者,阿里云非常重视通过自身的经验沉淀,为开发者赋能。
今年 8 月,阿里云与 Linux 开源软件学园、CNCF 共同发布 “云原生人才培养计划 2.0” ,在生态的合力下,通过开放技能图谱、专业课程、认证福利等方式,共同培养云原生专业人才。我们也欢迎更多的开发者小伙伴们一起踏上云原生的学习之路。


图片 8.png


再次感谢大家的观看,我们相信绿色、无处不在、可信的云计算将进一步推动产业发展,帮助我们实现更加美好的明天。谢谢!


👇👇点击此处,即可直达阿里云云原生专场!

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
12月前
|
边缘计算 Cloud Native 数据管理
边缘云计算相关标准的制定
边缘云计算相关标准的制定
114 0
|
5月前
|
存储 安全 开发工具
【计算巢】云计算:如何改变现代企业的IT基础设施
【5月更文挑战第31天】本文探讨了云计算如何重塑现代企业IT基础设施,通过IaaS、PaaS和SaaS三种服务模型提供灵活资源。云计算的优势在于灵活性、成本效益、可扩展性和高可用性。文中以Python和AWS SDK创建EC2实例为例,说明云计算应用,并列举了数据存储、灾难恢复、应用程序部署和企业协作等实际场景,强调云计算正成为企业的重要选择,未来将持续创造价值。
108 0
|
9天前
|
存储 边缘计算 安全
5G 边缘计算的安全保障:构建可信的边缘智能
5G 边缘计算的安全保障:构建可信的边缘智能
31 0
|
5月前
|
存储 安全 网络安全
云端防御线:融合云计算与网络安全的战略性布局
【4月更文挑战第30天】 随着企业数字化转型的加速,云计算已成为推动业务增长的关键驱动力。然而,云服务的广泛采用也带来了前所未有的安全挑战。本文深入探讨了在动态和复杂的云环境中维护网络安全的关键技术与策略。通过分析云计算服务模型、网络威胁面及信息安全最佳实践,文章旨在为企业构建一个既灵活又坚固的防御体系提供指导,确保在享受云服务带来的便利的同时,有效防范潜在的安全风险。
|
5月前
|
存储 安全 网络安全
云端防御线:云计算与网络安全的融合策略
【4月更文挑战第7天】 随着企业逐渐将关键业务迁移至云平台,云计算的安全性已成为不容忽视的挑战。本文深入探讨了在动态和复杂的云环境中维护网络安全的多维策略。通过分析云服务模型与网络安全的关系,提出了一套综合性的安全框架,旨在增强数据保密性、完整性及可用性。文章重点讨论了包括身份认证、访问控制、数据加密、入侵检测和安全审计在内的关键技术,并探索了如何将这些技术整合应用到多层次的云安全架构中。同时,文中也对当前面临的挑战和未来的发展趋势进行了前瞻性分析,为构建更可靠的云计算安全体系提供了战略性建议。
|
5月前
|
存储 安全 网络安全
云端防御线:云计算中的网络安全与信息保护
【4月更文挑战第7天】 在数字化的浪潮中,云计算已成为企业及个人存储、处理和分析数据的重要平台。然而,随之而来的是对网络及信息安全的新挑战。本文将深入探讨在云服务环境下,如何通过多层次、多维度的安全策略确保数据的保密性、完整性和可用性。我们将重点讨论最新的安全技术,包括加密算法、身份验证机制、入侵检测系统以及安全合规标准,并剖析这些技术如何共同构筑起坚固的云端防御线。
31 4
|
5月前
|
人工智能 安全 网络安全
云端防御线:云计算环境中的网络安全与信息保护
【2月更文挑战第30天】 随着企业逐渐迁移至云端,云计算服务成为现代信息技术架构的核心。然而,数据和服务的集中使得云环境面临前所未有的安全挑战。本文深入探讨了在云计算环境下,如何通过综合安全策略和技术手段来维护网络和信息安全。文中分析了云服务模式的安全风险,提出了针对公共、私有及混合云的定制化防护措施,并讨论了当前面临的高级持续性威胁(APT)以及如何通过加密技术、身份验证和访问控制来强化数据保护。最后,文章还展望了利用人工智能和机器学习技术提升云安全的未来趋势。
|
人工智能 安全 大数据
对话蚂蚁韦韬:将用密态天空计算推动可信隐私计算应用的平等普惠
对话蚂蚁韦韬:将用密态天空计算推动可信隐私计算应用的平等普惠
113 0
|
存储 边缘计算 安全
《边缘云技术演进与发展白皮书》——六、边缘云典型应用场景——04 政企边缘云场景——2.自用边缘云
《边缘云技术演进与发展白皮书》——六、边缘云典型应用场景——04 政企边缘云场景——2.自用边缘云
113 0
|
边缘计算 运维 云计算
《边缘云技术演进与发展白皮书》——六、边缘云典型应用场景——04 政企边缘云场景——1.商用边缘云
《边缘云技术演进与发展白皮书》——六、边缘云典型应用场景——04 政企边缘云场景——1.商用边缘云
155 0