在 6 月 9 日 2020 阿里云线上峰会上,阿里云智能基础产品事业部高级研究员蒋江伟重磅发布了云原生裸金属方案。
新一代容器服务 ACK,可以将最新神龙弹性裸金属实例的强大性能发挥得淋漓尽致,具备极致性能、高效调度、全面安全的特点:
- 新一代神龙架构具备业界第一的 I/O 转发能力,提供最高 100G 网络带宽;阿里云高速 Terway 容器网络通过网卡直通和数据平面加速,延迟下降 30%;
- 第 7 代实例最大支持 192 个 vCPU。ACK 智能 CPU 调度可以轻松释放强大算力,无需应用调整可以实现 QPS 20~30% 提升;结合 ENI 网卡密度提升,可以缩减 50% 的计算成本;
- 弹性裸金属实例支持阿里云安全容器,提升端到端安全隔离能力,与开源方案相比性能提升 30%,也支持阿里云首发机密计算容器,基于软硬一体技术有效保护数据隐私。
在阿里巴巴内部,神龙架构已大规模应用于淘宝、天猫、菜鸟等业务,解决了高峰值下的业务性能和稳定性问题。在外部,尤其是在这次疫情影响下,很多企业面临快速扩容的压力,如在线教育行业,通过阿里云容器+神龙方案,企业可以从容应对流量突增的难题。
视源股份(CVTE)的希沃系列教育平稳应对疫情期间指数级增长的课堂流量,视源电子运维负责人许坤丰称,“疫情之下,希沃课堂作为教育信息化应用和服务工具提供商,免费向全国师生开放希沃云课堂在线直播方案。不久前,全国超过 30 万教师使用希沃云课堂开课,共开设超过 200 万节课程。面对指数级增长的流量,我们在阿里云容器服务 ACK 上使用神龙服务器和 ECI,顺利完成扩容,让系统得以正常运行。ECI 的简单易用,海量节点的特性加上神龙服务器高性能,零抖动的特点,极大缓解了扩容的压力,让我们把更多精力放在产品本身,给全国老师和学生提供更好的服务。”
云计算开源产业联盟上周公布了“云原生应用十大优秀案例”评选结果,阿里云支持的申通通用云原生计算平台顺利入选。申通基于云原生裸金属方案完成迁云,实现了围绕快递包裹生命周期的高效管理,平稳度过 双11 业务高峰。
云计算开源产业联盟对申通通用云原生计算平台评价称“该平台解决了传统应用升级缓慢、架构臃肿、不能快速迭代等问题,通过云原生架构体系,在成本、稳定性、效率、赋能业务等四个维度获得显著成效。目前核心业务系统已经在云上完成流量承接,每天处理订单量在千万级别,处理物流轨迹在亿级别,每天产生的数据量在 1T,使用 1300+ 个计算节点来实时处理业务。”
神龙架构是容器的最佳载体
2017 年 10 月,阿里云在全球率先推出了同时融合物理机和虚拟机特性的“跨界”云服务器——弹性裸金属服务器神龙 X-Dragon,它采用了自主研发的虚拟化 2.0 技术,兼具“虚拟机的心脏”和“物理机的肌肉”,被认为是云计算领域的新物种。从 2017 年发布第一代神龙架构开始,历经了软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段后,第三代神龙架构实现了裸金属服务器、ECS 虚拟机,弹性容器实例 ECI 等多种计算平台的架构统一和全面优化。
蒋江伟在演讲中也提到,客户普遍有个共识,那就是容器与物理服务器的结合是最佳搭档。但是普通物理服务器天然具有一些缺陷,比如运维复杂度高,缺乏弹性。而以神龙架构为基础的裸金属服务器,搭配容器服务 ACK,不仅提供非常好的性能,同时具备虚拟机的运维灵活性,正好弥补了物理服务器的弹性缺陷,对于构建容器环境而言,裸金属是更好的选择。
据蒋江伟介绍,云原生裸金属具备极致的弹性、高效的调度能力和更全面的安全能力。在普通的应用场景下,基于神龙架构的容器服务ACK与自建容器相比,可以实现QPS提升30%,计算成本下降50%,容器安全性能提升30%。
对于线下传统物理机服务器,企业客户最大的痛点就是缺乏弹性,运维复杂,无法应对快速发展的业务需求。神龙裸金属服务器,具备虚拟机的体验,物理机的性能。扩容交付周期几周缩短到分钟,与虚拟机相比性能“零损耗”、“零抖动”,与传统物理机相比性价比提升 20% ,是用户上云的最佳选择。
钉钉以前 100% 部署在普通物理机上,疫情突发之后,政府、企业和学校对在线协作的需求猛增。通过云上神龙裸金属+容器弹性部署方案,快速地实现了钉钉业务应用 10 万核扩容需求;借助神龙+容器的超高性能支撑钉钉扛住了有史以来最大的流量洪峰。
此外,社区版本 K8s 容器调度技术存在一定局限,无法充分使用神龙裸金属服务器强大的算力。应用在多 CPU 核心场景下,可能会引起资源争抢、CPU 频繁切换等情况。通过开启容器服务 ACK 的智能 CPU 调度,可以提升缓存的命中率、减少 CPU 中断和切换次数,有效提升性能,在不增加硬件资源的情况下性能提升 20%,QPS 从 25 万提升到 30 万。
容器服务 ACK 不但支持对 CPU 的高效调度,还新增了对业界最强算力 AI 芯片 - 含光 800 的多核调度支持,可以成倍提升 AI 业务资源利用率和性价比。阿里自研的含光 800 芯片具备强大的应用算力,在淘宝的拍立淘场景中,对商品库每天新增 10 亿商品图片,使用传统 GPU 算力识别需要 1 小时,使用含光 800 后可缩减至 5 分钟。对于强大的含光 NPU 芯片,阿里云容器服务 ACK 独创了面向容器的虚拟化和共享能力,充分发挥含光 800 多核资源,把多种业务精确调度到同一含光 800 芯片,充分利用计算资源,显著降低计算成本!
传统企业,尤其是一些大型企业,对从私有数据中心迁移到公有云上并不放心。其中数据安全问题是首要关切,需要独享使用物理机才会有安全感。云原生裸金属方案,结合阿里云安全沙箱容器技术,提供从基础设施到应用运行时端到端安全,非常适合对隐私和隔离要求较高的应用场景,而且与开源方案相比性能提升 30%。
阿里云此次首发机密计算容器,基于软硬一体技术实现全链路加密,有效解决数据泄露、非法数据访问等问题,可以应用在区块链、金融交易、基因计算等业务场景中。
云计算的下一站,是云原生
神龙是面向云原生设计的新一代云基础设施架构,同时支持裸金属服务器、ECS 虚拟机,ECI 弹性容器实例等多种计算形态。神龙架构采用软硬一体设计,可以将网络和存储的转发任务卸载到神龙芯片上,避免了底层资源争抢而导致的 ECS 虚拟机性能波动。第三代神龙架构还引入硬件级别 QoS 能力,为客户关键业务带来更强的保障。基于神龙架构的 ECI 弹性容器实例,性能优于虚拟机中运行的相同规格 Docker 容器;具备极致的弹性能力,可以在一分钟内扩容 1000 业务容器实例。
客户可以在一个 ACK K8s 集群中划分不同节点池统一管理弹性裸金属实例,ECS 虚拟机实例和弹性容器实例。根据应用负载特性,可以充分优化计算效率、提升资源利用率、降低计算成本。对于需要极致性能和强安全隔离场景,用户可以采用裸金属实例;对于存在明显业务峰谷的场景,虚拟机实例可以提供更灵活的弹性。而弹性容器实例可以更好应对突发业务流量,提供免运维的用户体验。
容器服务 ACK 已经成为企业云原生操作系统,与 EDAS 微服务架构,ARMS 端到端可观测能力全面集成,全面提升 IT 敏捷性,为企业数字化转型提速。
本文转自<阿里巴巴云原生技术圈>——阿里巴巴云原生小助手