云原生月度动态 ✦
CLOUD NATIVE
云原生是企业数字创新的最短路径。
《阿里云云原生每月动态》,从趋势热点、产品新功能、服务客户、开源与开发者动态等方面,为企业提供数字化的路径与指南。
本栏目每月更新。
01 趋势热点
🥇 阿里云 Serverless 容器服务全面升级:新增组件全托管、AI 镜像秒级拉取能力
6 月 1 日在阿里云峰会·粤港澳大湾区上, Serverless 容器服务 ASK 全面升级,进一步帮助企业和开发者降本提效。本次发布,ASK 进一步整合了阿里云基础设施的能力,在使用成本、创建效率、异构资源兼容、弹性供给保障等方面带来显著提升,解决开发者在使用 K8s 的复杂性挑战,也顺应了 AI 场景爆发下催生的新需求,包括对组件的全托管支持、AI 镜像的秒级拉取能力,还降低了客户的使用成本。
相关文章:阿里云 Serverless 容器服务全面升级:新增组件全托管、AI 镜像秒级拉取能力
🥈 阿里云斩获 4 项年度云原生技术服务优秀案例
日前,在 ICT 中国·2023 高层论坛-云原生产业发展论坛上,由阿里云容器服务提供技术支持的“数禾科技”和“智联招聘”两大案例以及阿里云云原生 AI 套件、云原生 FinOps 成本分析套件两大产品技术方案,共同获得 2023 年度云原生应用实践先锋——云原生技术服务优秀案例。
🥉 2023 云原生编程挑战赛正式启动
阿里云启动 2023 云原生编程挑战赛,大赛由阿里云主办,云原生应用平台、阿里云天池平台联合承办,自 2015 年开始,大赛已经成功举办了八届,并从 2020 年首次升级为云原生编程挑战赛,共吸引了超过 53000 支队伍,覆盖 10 余个国家和地区。今年,云原生编程挑战赛全新升级,围绕"Serverless 引领云上开发新范式”展开,深度探索 Serverless 冷启动、插件设计、创新应用三大热门方向。
💐 阿里云顺利通过云原生中间件成熟度评估
6 月 6 日,由中国信息通信研究院(以下简称“中国信通院”)承办的“ICT 中国·2023 高层论坛-云原生产业发展论坛”在北京召开,会上正式发布了一系列云原生领域评估结果。阿里云计算有限公司消息队列 RocketMQ 通过了“云原生中间件成熟度”评估,验证了阿里云中间件较强的云原生服务能力,能够帮助用户更加高效、敏捷的进行云转型。
📬 阿里云携手开放原子开源基金会倡议发起云原生工作委员会
6 月 11 日,2023 开放原子全球开源峰会正式拉开帷幕。在峰会主论坛,开放原子开源基金会理事长孙文龙携各家单位共同倡议发起云原生工作委员会。云原生工作委员会,将通过构建开源、开放的云原生技术生态,探索云原生技术创新,推进云原生技术在中国发展,赋能千行百业数字化转型。
相关文章:阿里云携手开放原子开源基金会倡议发起云原生工作委员会,两大开源项目达成捐赠意向
🎡 阿里云 ACK@Edge 产品技术、落地能力获信通院综合认可
6 月 30 日,由中国信通院主办的“2023 云边协同大会”在北京举办。大会现场对领域近期权威成果进行了颁奖公示,阿里云边缘容器服务 ACK@Edge 以“2023 大规模边缘容器集群服务质量和关键性能评测”、“2023 边缘计算技术创新与实践最佳案例”两项结果,展示了其产品服务能力在大规模性能、企业落地生产维度优秀的综合能力。
相关文章:性能认证+最佳案例,阿里云 ACK@Edge 产品技术、落地能力获信通院综合认可
02 产品新功能
服务网格 ASM
- 可观测性管理中心 2.0
- 服务发现范围配置支持命名空间的黑名单模式
- 流量管理新增回退机制
容器服务 ACK
- 支持 Kubernetes(K8s)版本 v1.26
- 上架 csi-compatible-controller 组件
阿里云容器服务 Serverless 版 ASK
- 支持以指定 ECS 规格创建 U 实例规格
- 支持成本洞察
阿里云云原生 AI 套件
- Fluid 支持 EFC Runtime 加速 NAS/CPFS 文件访问
- ack-kube-queue 支持阻塞队列和严格优先级调度
- 云原生 AI 套件支持 VSCode 类型的 Notebook
云消息队列 RocketMQ 版
- 4.x 系列实例 Topic 导入/导出功能
- 5.x 系列实例 Topic 导入/导出功能
- 4.x 系列实例 Group 导入/导出功能
- 5.x 系列实例 Group 导入/导出功能
应用实时监控服务 ARMS
- 探针新增支持 SequoiaDB,Informix,ElasticJob,OceanBase,DB2 等组件
- 海外地域支持 CPU&内存诊断功能
- 内存快照功能全面升级为阿里云应用诊断分析平台(ATP)方案
- 链路追踪产品全面升级为可观测链路 OpenTelemetry 版,支持多语言通过 OpenTelemetry 接入
- 全面优化全链路聚合与全链路拓扑能力
- 应用监控告警规则支持测试验证
- 云拨测 2.0 新版本发布,功能全面升级
- 上线告警事件分析页面
可观测监控 Prometheus 版
- Promethues for ECS 实例支持自建 Cassandra 数据库集成
- 全局聚合实例支持配置告警规则
- 金融云支持阿里云 MongoDB 集成
- Prometheus 实例 for 容器服务实例支持 ACK One 容器服务
- 优化 Promethues for ECS 实例接入流程
- 优化 ACK 工作负载监控大盘
可观测可视化 Grafana 版
- 大盘支持中/英文界面设置
云消息队列 MQTT 版
- 新增专业版实例类型,采用新的计费策略,按照计算规格和公网下行流量进行计费
微服务引擎 MSE
- 注册配置中心提供存量专业版实例节点打散功能
- 云原生网关日志兼容 Nginx Ingress SLS 格式
- 服务治理国际站提供基础版及企业版,支持流量防护功能
03 优秀实战案例
当 Rokid 遇上函数计算
Rokid 创立于2014年,是一家专注于人机交互技术的产品平台公司。Rokid 在数字文化领域,围绕展陈导览解决方案,主要形成了三维建图,场景创作,场景体验三个业务模块,每个模块都有不同的后台平台支撑。需要大量的 GPU 资源。为了解决业务中的痛点,Serverless 架构的函数计算出现在了 Rokid 架构师的视野。
通过一系列的云架构改造,当前 Rokid 三维建图模块运行在函数计算的 GPU 资源上,场景体验模块运行在 ECI 资源,在成本和性能上,都做到了兼顾,且给整个系统强大的可拓展性,达到了系统设计时设定的架构目标,从 2023/2 上线提供服务以来,达到了不错的效果。其中三维建图模块降本明显,相比最初的 ECS 架构,算力成本降低了 40%,更为重要的是,通过实时的并发处理,大大减少了子任务的排队时间,加快了整个任务的完成时间。
时速云使用 Higress 替换 Ngnix Ingress + Spring Cloud Gateway 的生产实践
时速云成立于 2014 年 10 月,致力于通过云原生技术帮助企业实现数字化转型,拥有云原生应用平台 TCAP 和云原生数据平台 KubeData 两大核心产品体系,产品包含云原生 DevOps、容器云 PaaS、中间件服务、边缘计算、微服务治理、服务网格、API 网关等。但寻找一种既可以满足所有需求,又可以使用统一技术栈的工具,已经成为时速云追求的目标。Higress 正符合时速云的需求。
迁移后的架构基于 Higress 在产品层面做了各个技术栈的统一融合,增强了用户体验,具体收益如下:Higress 同时支持 K8s Ingress API 以及 Istio Gateway/VirtualService API,多个集群可以快速平滑升级;使用 Higress 进行了多种网关的统一,统一了流量入口/路由负载/安全认证的技术栈,实现了降本增效;Higress 基于 Envoy,与东西向流量治理的 Sidecar 采用相同的技术栈,降低了开发人员扩展和维护的成本。
相关文章:时速云使用 Higress 替换 Ngnix Ingress + Spring Cloud Gateway 的生产实践
支撑 “千万设备日活” 的创米数联 7 年微服务架构演进之路
创米数联是小米生态链首批亿元俱乐部成员,主营业务为智能家居产品的研发、设计、生产和销售。随着智能家居市场的快速迭代,创米面临着发布和迭代的稳定性挑战,同时需要解决多方 IOT 接入面临的性能和安全挑战。
在核心业务接入 MSE 微服务治理之后,创米云服务对部分多云部署及老项目通过 DNS 流量切分+全链路灰度的方式进行灰度,逐渐将自有 APP 及自有设备的所有业务重构迁移至新项目中并全部接入 MSE 微服务,实现了云上 API 业务的 100% 安全发布。同时也接入了 MSE 微服务治理的无损上下线,并调整对应服务的就绪检查,在后续的服务上下线过程中经观察再未出现因为流量损失导致的请求不可用的情况,一定程度上避免了由部署发布和服务缩容引起的线上流量损失问题。
相关文章:支撑 “千万设备日活” 的创米数联 7 年微服务架构演进之路
04 开源和开发者动态
ACK Distro 和云原生应用脚手架两大开源项目达成捐赠意向
2023 开放原子全球开源峰会上,阿里云和基金会就 ACK Distro 和云原生应用脚手架两大开源项目达成捐赠意向。ACK Distro 作为异构 IaaS 环境推出的 Kubernetes 发行版,是为了更好的满足客户在数据中心部署 Kubernetes 集群的需求, 让企业在自有基础设施上也能享有和阿里云容器服务 ACK 一样安全、可靠的企业级能力。云原生应用脚手架是一款基于 Spring Initializr 项目基础之上,支持多种工程架构、提供代码示例片段、组件更丰富、生态更开放的一款脚手架。
KServe + Fluid 加速大模型推理
阿里云容器服务团队和 KServe,Fluid 社区的小伙伴一起探索在阿里云 Serverless Kubernetes 平台上简单、方便、高性能、生产级别的支持大型语言模型(LLMs):在 KServe 最新版支持除了存储初始化器(Storage Initializer)外,也支持标准的 PVC 模式,通过避免从远程存储中拉取模型到本地,减少存储不足的风险和提升启动速度;也可以支持模型热升级。通过弹性分布式缓存加速模型加载流程,缩短 Pod 启动时间 80% 同时支持模型热升级,无容器重启。
相关文章:【假期 AI 充电】KServe + Fluid 加速大模型推理
DeepSpeed + Kubernetes 轻松落地大规模分布式训练
目前,阿里云容器服务 ACK 云原生 AI 套件已经支持 DeepSpeed 分布式训练,并提供高效便捷的解决方案。对于用户而言,只需准备好训练代码和数据,就可以利用命令行工具 Arena 快速在 ACK 集群中部署基于 DeepSpeed 的分布式训练任务。此外,可以通过 TensorBoard 可视化工具方便地查看训练作业的状态和结果,从而使 DeepSpeed 分布式训练变得更加容易和高效。
相关文章:DeepSpeed + Kubernetes 如何轻松落地大规模分布式训练
企业级服务网格 ASM:优化 Service Mesh 以提高性能和高可用性
阿里云服务网格 ASM 从多维度、不同层面的性能优化手段来构建网格优化中心, 提升产品的性能指标与高可用性, 包括收敛服务发现的范围, 提升网格配置的推送效率; 基于访问日志分析自动推荐生成 Sidecar 对象, 以减少代理资源消耗; 推出自适应配置推送优化 AdaptiveXDS 组件能力; 基于软硬结合的性能优化、资源超卖模式下的支持; 以及基于 eBPF tcpip-bypass 的数据面性能优化等。以此帮助用户找到更加有效的解决方案来提高使用 Service Mesh 的性能和稳定性。
4 万人学会云上部署 Stable Diffusion
目前大火的 AIGC 领域中, 除了 ChatGPT,Stable Diffusion 在文生图领域也大放异彩,深刻影响着绘画、视频制作等相关领域。《动手吧,开发者》本期活动邀请 B 站知识区 UP 主、“林粒粒”手把手教大家用函数计算 FC 部署 Stable Diffusion,教程简单易上手,在 B 站已有 4w 多用户观看学习。
相关文章:看这个视频,4万人学会云上部署 Stable Diffusion
RocketMQ 学习社区重磅上线,支持 AI 互动
为了进一步帮助开发者全方位的了解 RocketMQ 相关的知识,同时可以更好的在实际生产环境中使用 RocketMQ,RocketMQ 学习社区重磅上线。RocketMQ 学习社区具备以下四大亮点:AIGC “文生文”;全方位学习;边学边用;边学边练。
相关文章:RocketMQ 学习社区重磅上线!AI 互动,一秒了解 RocketMQ 功能源码
往期月报回顾:
阿里云云原生每月动态 | 聚焦实战,面向开发者的系列课程全新上线让开发者成为创新主体 | 阿里云云原生4月动态一键部署通义千问预体验丨阿里云云原生 5 月动态