阿里云 Serverless 重塑创蓝云智通信底座,引领行业变革

本文涉及的产品
函数计算FC,每月15万CU 3个月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 创蓝云智通过采用阿里云云原生产品矩阵,成功实现从传统架构向云原生弹性架构转型。利用Serverless应用引擎(SAE)、云原生API网关、微服务引擎(MSE)等产品,解决了资源利用率低、运维压力大等问题,显著提升系统稳定性与业务连续性,助力企业降本增效,成为云原生领域的标杆案例。

640 (2).gif


作者赵世振、张伟、王云海、十眠

"创蓝云智作为国内领先的短信分发服务提供商,面临资源利用率低、运维压力大等挑战。通过全面采用阿里云云原生产品矩阵,包括 Serverless 应用引擎 SAE、云原生 API 网关、微服务引擎 MSE 等,创蓝短信成功实现了从传统云服务器架构向云原生弹性架构的转型。这一转型不仅解决了资源浪费问题,还显著提升了系统稳定性与运维效率,为创蓝短信业务的持续增长和创新提供了坚实的技术基础。"

——创蓝云智 CTO 马崇


一.客户背景介绍

上海创蓝云智信息科技股份有限公司(简称创蓝云智)成立于 2011 年,注册资金 6000 万元,总部位于上海松江启迪漕河泾科技园。作为国内领先的企业通信服务提供商,创蓝云智专注于为企业客户提供以消息通信服务为基础,融合大数据、5G 等前沿技术的通信综合解决方案。

经过十余年的深耕发展,创蓝云智已成为行业内知名的电信增值服务提供商,先后获得软件企业、高新技术企业、上海市专精特新企业、中国互联网百强企业等多项权威资质认证。同时,创蓝云智还是中国通信企业协会增值服务专业委员会的常务委员单位、全球移动通信系统协会(GSMA)的会员单位。

在技术创新方面,创蓝云智于 2015 年率先推出行业标杆产品"5S 到达",引领行业技术革新;自主研发的创蓝云智国际短信平台,率先完成全球短信服务市场的战略布局。公司每年研发投入超过 5000 万元,占营收比重 6% 以上,累计获得知识产权 100 多件,技术实力在行业内处于领先地位。

目前,创蓝云智在阿里云上部署了超过千台云服务器实例,总计算资源达到上万核心,支撑着日均千万级的短信分发量,为众多知名企业提供稳定可靠的通信服务。


640 (76).jpg


二.业务挑战


作为典型的 To B 服务提供商,创蓝云智的短信分发业务呈现出明显的周期性和突发性特征。在电商大促期间(如双十一、618)以及日常业务高峰时段(上午 9 点、下午 4 点),系统需要处理海量的短信发送请求。然而,随着业务规模的快速扩张,传统 IT 架构的局限性日益凸显,主要体现在以下几个方面:


1. 资源利用率低,成本压力巨大

波峰波谷效应明显:创蓝云智的业务具有典型的潮汐特征,日常时段资源利用率低于 10%,即使在双十一、618 等电商节高峰期,利用率也仅达到 20% 左右。

资源预留造成浪费:为保障业务稳定性,大量云服务器实例需要 24 小时预留,在业务低谷期造成严重的资源闲置和成本浪费。

弹性扩容能力受限:传统云主机架构难以快速响应业务流量的波峰波谷变化(高峰期通常仅持续 1-2 小时),既无法满足突发流量需求,又无法在低谷期有效节省成本。


2. 运维压力大,管理复杂度高

人力资源紧张:运维专家需要管理上万核资源,工作强度大,运维风险高。

架构复杂度高:各业务线独立管理网关(CLB、Nginx+Spring Cloud Gateway),架构不统一,路由规则管理复杂。

监控体系不完善:缺乏统一的监控平台,问题排查效率低下,故障定位时间长。

基础设施迁移压力:单可用区自建 ZooKeeper,可能会面临单点故障的风险,需要自行处理集群管理、故障恢复、性能优化等问题,增加了运维负担。


3. 系统稳定性要求高

业务连续性要求:短信服务作为企业触达用户的关键通道,发送成功率直接影响客户业务效果,系统稳定性要求极高。

高并发处理能力:在双十一等大促期间,系统需要承载数倍于平时的流量压力,对系统的高可用性和容错能力提出了严峻挑战。


4. 技术架构升级需求迫切

微服务治理能力不足:Spring Cloud 应用缺乏无损上下线、流量防护、全链路灰度等企业级治理能力。

发布流程复杂:传统发布方式风险高,缺乏有效的灰度发布和快速回滚机制。


三.阿里云解决方案

在深入了解创蓝所面临的业务挑战后,阿里云云原生团队第一时间主动对接,与创蓝技术团队开展了多轮深入的架构探讨与技术交流。基于创蓝的实际业务需求,双方共同设计并确定了以阿里云云原生产品矩阵为核心的全新技术架构体系,助力创蓝实现系统能力的全面升级。


640 - 2025-07-24T141852.822.png


1. Serverless 应用引擎(SAE)- 核心弹性计算平台

1.1 智能弹性扩缩容

自动水平扩容:SAE 根据业务负载自动调整实例数量,结合定时策略精准应对周期性波峰波谷。在业务高峰期自动扩容应对突发流量,低谷期可缩容至 0 实例,实现真正的按需付费。

CPU Burst 能力:针对 Java 应用启动过程中 CPU 利用率高的问题,SAE 支持在启动阶段将实例规格临时提升至两倍,显著缩短应用启动时间。

智能闲置优化:当应用缩容到最小实例数且处于闲置状态时,闲置实例的 vCPU 成本可降低 80%,进一步优化运行成本。

冷启动优化:采用阿里云定制的 Dragonwell JDK,针对 Java 应用冷启动进行深度优化,启动时间缩短 30% 以上。


1.2 自动化 CI/CD 与部署优化

SAE 工具链集成:通过 SAE 工具链与现有 CI/CD 系统无缝对接,实现 JAR 包构建、部署流程的完全自动化。

版本管理与回滚:SAE 为每次发布自动打上时间戳版本标签,支持一键回滚至任意历史版本,确保发布过程零中断。

多样化发布策略:支持分批发布(逐步升级实例)、金丝雀发布(小流量验证)和全链路灰度发布(跨服务版本一致性),确保新版本稳定验证后平滑上线。


1.3 企业级治理与稳定性保障

MSE 治理能力集成:内置全链路灰度发布、无损上下线、流量防护等功能,确保发布过程无损,流量切换平滑。

高可用架构设计:天然支持多可用区部署和同可用区亲和特性,实现流量自动切换和故障快速恢复,确保业务连续性。

多维度监控视图:支持命名空间维度的统一监控,满足企业级监控管理需求。


2. 云原生 API 网关 - 统一流量入口

高性能处理能力:支持每秒数万次 API 请求处理,满足创蓝云智高并发业务场景需求。

架构统一简化:替代复杂的 CLB+Nginx+Spring Cloud Gateway 多层架构,实现统一的流量管理。

全面监控集成:提供统一的网关监控和问题排查能力,大幅提升运维效率。

平滑迁移支持:支持客户自定义加签插件的平滑迁移,确保业务逻辑无缝衔接。

企业级安全防护:集成 WAF 应用防火墙、智能限流熔断、IP 黑白名单等安全机制,全方位保障系统安全。

灵活路由策略:支持自定义路由规则、动态配置更新,适应不同业务场景的流量管理需求。


3. 微服务引擎(MSE)- 注册配置中心

高可用性和稳定性:MSE Nacos 和 Zookeeper 均支持多可用区部署,能够实现故障节点的秒级自动剔除和流量自动切换,系统可用性达到 99.95% 以上,MSE 注册配置中心企业版有 99.99% 的稳定性保障,性能提升 300% 。

简化运维:MSE Nacos 和 Zookeeper 均为托管服务,用户无需关注底层运维,阿里云提供专业的技术支持和故障恢复服务⁠⁣ ⁠⁣。MSE 提供同步工具(如 MSE-SYNC),支持 Nacos、Zookeeper、Eureka 的迁移,简化了从自建到云上的迁移过程⁠⁣ ⁠⁣⁠⁣。


四.业务价值

通过全面采用阿里云云原生产品矩阵,创蓝云智在成本优化、系统稳定性、运维效率等多个维度实现了显著提升:


1. 成本效益显著提升

按需付费模式:彻底告别资源预留模式,实现真正的按需付费,在业务低谷期成本接近零。

资源利用率大幅改善:通过 SAE 弹性扩缩容,短信分发业务的资源利用率从峰值 20% 提升至接近 60%,资源浪费问题得到根本解决。

直接成本节省明显:通过 SAE 轻量版和 SAE 专业版的结合使用,整体计算资源成本降低 25%,资源使用效率显著提升。


2. 系统稳定性与高可用性全面增强

多可用区高可用架构:SAE、云原生 API 网关、MSE Nacos 均支持多可用区部署,系统可用性达到 99.95% 以上。

高并发处理能力:云原生 API 网关支持百万级 RPS 的高并发处理,在双十一等高峰期能够稳定支撑业务需求。

流量防护机制:SAE 集成 MSE 治理提供限流、熔断、降级能力,确保系统在突发流量下不会崩溃,保障业务连续性。


3. 运维效率与开发敏捷性大幅提升

运维复杂度显著降低:SAE 集成 MSE 治理和 ARMS 监控,运维工作量大大降低。

故障定位效率提升:统一监控平台和全链路追踪能力,故障定位时间从小时级缩短至分钟级。

发布效率大幅提升:无损发布和灰度能力使应用发布频率提升 3 倍以上,同时确保发布过程不影响用户体验。

开发效率优化:云原生 API 网关统一管理路由规则,开发人员可以更专注于业务逻辑开发,开发效率提升 30% 以上。

DevOps 能力提升:集成的 CI/CD 能力支持 Jenkins 等主流工具,实现了真正的 DevOps 实践。


五.未来展望

展望未来,创蓝云智已制定了清晰的云原生化发展路线图。计划于2025年底前完成业务系统向阿里云 Serverless 应用引擎(SAE)的全面迁移,预计整体资源规模将达到上万核级别,打造阿里云 Serverless 领域的标杆级客户。


在此基础上,创蓝云智将持续深化云原生技术的应用探索,积极引入函数计算(FC)和 AI 网关等产品,探索 AI 业务的新场景与新模式。同时,公司将加快构建智能运维体系,推动运维能力从自动化向智能化演进,全面提升业务的可观测性与响应效率,助力企业实现更加智能化、精细化的运营。


创蓝云智的云原生实践,为整个企业服务行业提供了极具参考价值的数字化转型范本。尤其对于存在明显业务波峰波谷特征、面临资源利用率低、运维压力大等共性挑战的企业,这一案例充分验证了云原生技术在破解传统 IT 架构瓶颈、提升系统弹性与稳定性方面的显著优势。

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
2月前
|
运维 NoSQL Serverless
|
2月前
|
人工智能 运维 Cloud Native
阿里云Serverless计算产品入选Gartner®报告「领导者」象限!
近日,Gartner® 发布了 2025 年度全球《云原生应用平台魔力象限》报告,阿里云凭借 Serverless 应用引擎 SAE(以下简称 SAE)和函数计算 FC,成为亚太地区唯一入选「领导者象限」的科技公司。
245 16
|
3月前
|
人工智能 运维 Serverless
活动邀请 | 阿里云AI原生应用开发实战营—Serverless AI 专场(北京站)开启报名!
阿里云 AI 原生应用开发实战营——Serverless AI 专场将于 2025 年 8 月 1 日在北京举办。活动聚焦 Serverless 架构如何助力 AI 应用解决算力成本高、资源弹性需求高、运维复杂等难题,提供分钟级构建生产级 AI 应用的实战体验。
|
21天前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
5天前
|
人工智能 运维 安全
阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施
阿里云推出以函数计算为核心的AgentRun平台,通过创新体系解决开发、部署、运维难题,提供全面支持,已在多个真实业务场景验证,是AI原生时代重要基础设施。
|
21天前
|
消息中间件 运维 监控
爆款游戏背后:尚娱如何借助阿里云 Kafka Serverless 轻松驾驭“潮汐流量”?
阿里云 Kafka 不仅为尚娱提供了高可靠、低延迟的消息通道,更通过 Serverless 弹性架构实现了资源利用率和成本效益的双重优化,助力尚娱在快速迭代的游戏市场中实现敏捷运营、稳定交付与可持续增长。
108 13
|
27天前
|
消息中间件 存储 运维
嘉银科技基于阿里云 Kafka Serverless 提升业务弹性能力,节省成本超过 20%
云消息队列 Kafka 版 Serverless 系列凭借其秒级弹性扩展、按需付费、轻运维的优势,助力嘉银科技业务系统实现灵活扩缩容,在业务效率和成本优化上持续取得突破,保证服务的敏捷性和稳定性,并节省超过 20% 的成本。
117 22
|
16天前
|
人工智能 运维 安全
阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施
云原生应用平台 Serverless 计算负责人杨皓然在云栖大会发表主题演讲“Serverless Agent 基础设施:助力大规模 Agent 部署与运维”。本议题深入介绍了阿里云以函数计算为核心打造的 Agent 基础设施——AgentRun,阐述其如何通过创新的运行时、模型服务、网关及可观测体系,为企业构筑坚实、高效、安全的 Agent 时代基石。
|
2月前
|
运维 NoSQL Serverless
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
在轻休闲游戏流量波动大、生命周期短的背景下,传统架构难以应对成本与扩展挑战。本文介绍了基于阿里云函数计算 FC 和 Redis 构建的新一代服务器架构,实现弹性伸缩、成本优化与高效运维,助力轻休闲游戏快速迭代与稳定运营,提升开发效率并降低运维复杂度。
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏

相关产品

  • 函数计算