双11背后通信技术解读:大促场景下云通信高可用、稳定性实战

简介: 为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。

为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。

云通信海报.png

本次分享主要包括三个方面,第一是针对和稳定性,云通信业务架构如何保证;第二是从流量和整个流程和机制上,如何保障稳定性;第三是流量控制体系是怎么支持云通信的高可用、稳定性的。

云通信平台技术架构

云通信的整体平台架构构建在阿里云的基础设施之上,技术架构上则分成三层的架构:

第一层架构多网关分组这一层,主要是面向供应链体系,通过多协议适配、多接入方式、多region部署解决供应链资源快速的接入和使用,同时在高可用性上通过物理、逻辑多维度的隔离的隔离措施以及全覆盖的心跳管理体系,解决供应链通道出现故障时的快速隔离和恢复。

第二层是业务处理层,核心包括风控体系以及资源的智能调度、智能决策。主要是针对通信业务比较核心的基础能力平台,技术上基于多队列、削峰填谷、业务客户等维度资源隔离、延迟、限流、降级容灾等一系列的手段保障平台稳定运行。通过这些年的积累,形成了通信业务的安全、调度平台,结合ASR、TTS、NLP等AI技术,解决业务的安全、多模型的调度策略,让通信业务更健康、更高效的触达消费者。

最上层是面向客户的统一接入层,为了能让客户更方便的管理和使用云通信的服务,除了提供官网控制台的基础开通、查询等功能,我也提供了面向开发者的多语言的OpenAPI SDK以及移动、PC端侧SDK,覆盖各种业务场景,通过技术手段帮助客户快速、便捷地集成使用云通信的能力。

屏幕快照 2020-12-22 下午4.56.08.png

多网关分组架构

大促场景下流量是非常大的,云通信在面对洪峰流量的时候,需要按照业务场景进行隔离,针对容灾情况、资源、供应链、热点数据处理进行隔离。这一套非常标准的流程和机制,能保证云通信针对高并发的情况下的系统稳定性,实现客户角度的完全无感知。

流量控制系统架构

通常在大促场景下,客户的入口流量可能会呈现非常大的突发性,从客户入口量进来以后,经过中间这层核心的流量管控机制,最终保证客户的请求非常平稳的分发到不同的地域、分组以及机房。

屏幕快照 2020-12-22 下午4.55.50.png

再举个一个更实际的例子,假设我们把洪峰流量比喻成水流,那么流量控制系统就是三峡这样的水利系统,当遭遇流量洪峰,如果不被很好控制,很有可能会带来业务场景的损失,或者达不到SLA要求,所以流量管控体系非常重要。

基于阿里云通信流量控制系统,即使入口流量非常巨大,也能通过流量控制器将并发流量平缓、稳定的分发到不同网关和地域分组上,保证资源的稳定性。同时,任何一个节点出现了不稳定的情况,系统都会第一时间感知并且做出调整,整个过程客户无感知。对于整个流量控制系统的架构来说,客户从入口流量到出口流量的场景是非常丰富、复杂的,而阿里云通信整体的控制体系可以完成自动化的闭环,利用削峰填谷等平滑调度策略,保证业务的平稳。此外,在决策系统会按照客户与资源的情况进行一个最佳的匹配,确保延迟、成功率、稳定性等均得到保障。

总而言之,阿里云基于数据、算法和平台,打造的一套完整的流量控制体系,可以实现从入口流量的客户场景转换,到资源池、逻辑资源、物理资源、通道、网关连接等全链路的自动化匹配转换,实现全生命周期闭环管理。

从一个具体场景来看,从入口流量开始,假设一个客户批量请求了100万短信,流量控制体系第一道先把客户的请求按照场景先做一层缓冲控制。转换完以后,结合实际的资源情况做了一层供需关系的一个匹配和控制。最终我们分发到单个连接的QPS的时候,从客户的入口流量来说,瞬间请求可能达到10万QPS,而真正分发到单连接的时候就变成非常低了,对于运营商来说,他的系统也是非常稳定的。所以也不会因为客户入口流量冲击导致出口流量不稳定,以此来保证无论客户使用场景多复杂,最终的SLA和请求耗时、延迟都能满足客户需求。

如何保证平台运行稳定?

在企业生产过程中,平台运行的稳定性是重中之重。“在稳定性上, “1、5、10”是我们始终追求的目标,1分钟发现,5分钟定位,10分钟恢复。”在系统的稳定性和高可靠上主要是围绕4个方向展开。

屏幕快照 2020-12-22 下午4.55.58.png

第一是在全链路的容灾体系建设,当前整体链路包括对于第三方的依赖完整支持了双机房、双活高可用体系的建设。在整个链路上通过心跳等实时探测机制,在应用、机器、机房维度出现故障是具备分钟级别隔离的能力。基于阿里本身沉淀的故障演练机制,会通过定期、突袭的演练方式,发现问题逐步迭代完善、演进平台的技术架构。

第二是在统一的接入和网关的接入层面,采用了多region的策略,就近边缘部署,降低接入成本,降低数据在物理网络链路传输过程中的时延,保障通话质量。同时,跨region的容灾体系可以在当某个region出故障的时候,能够切换到另外一个region进行服务,进一步提升服务的稳定性。

第三是主要在网关层面,通过不同的接入方式,以及多维度降级、逃生的容灾策略,基于客户特性、产品特性和资源特性做了不同维度的降级和切换策略来保障极端情况下的业务持续可用。

第四是在整个链路层面进行监测以及分级告警,针对核心业务和核心链路提供7x24小时运维保障,针对系统运行过程中出现的告警定义了p1-p4的分级,对不同级别的告警我们采用了多种的触达方式,如钉钉消息、短信、电话形式进行不同配置的触达,通过告警的升级和触达方式的升级尽可能保证在最短的时间内发现问题、处理问题,恢复线上的生产。

后续更多产品、技术和活动信息,可以进入云通信官方交流群进行了解:

image.png

点击观看直播回放:https://yqh.aliyun.com/live/detail/21594

点击进入秒懂云通信,获取更多视频:
https://yqh.aliyun.com/live/cloudcommunication-videos

目录
相关文章
|
5月前
|
运维 Kubernetes 监控
备战双 11!蚂蚁金服万级规模 K8s 集群管理系统如何设计?
备战双 11!蚂蚁金服万级规模 K8s 集群管理系统如何设计?
|
6月前
|
存储 监控 网络协议
百度基于金融场景构建高实时、高可用的分布式数据传输系统的技术实践
本文将通过一个百度搜索旗下的金融场景案例来分享构建高实时、高可用的分布式数据传输系统的技术实践。
117 0
|
6月前
|
Java Go 双11
“天猫双11”背后的流量治理技术与标准实践
一年一度的天猫双11 已经拉下帷幕,大家在疯狂买买买的过程中一定会有疑问:如何保障微服务在双十一的超级峰值下也能如丝般顺滑稳定?这背后的技术原理是怎样的,有没有一些最佳实践与标准?这篇文章就为大家介绍如何结合 Sentinel 与 OpenSergo 玩转双十一背后的流量治理技术与标准。OpenSe...
157 0
“天猫双11”背后的流量治理技术与标准实践
|
监控 容器 调度
带你读《智慧光网络:关键技术、应用实践和未来演进》——2.7 多业务承载的OTN 及OSU 技术
带你读《智慧光网络:关键技术、应用实践和未来演进》——2.7 多业务承载的OTN 及OSU 技术
|
运维 算法 网络架构
带你读《智慧光网络:关键技术、应用实践和未来演进》——2.9.1 光接入系统
带你读《智慧光网络:关键技术、应用实践和未来演进》——2.9.1 光接入系统
|
存储 缓存 关系型数据库
淘宝应对"双11"的技术架构分析
原文地址:http://kb.cnblogs.com/page/193670/     双“11”最热门的话题是TB ,最近正好和阿里的一个朋友聊淘宝的技术架构,发现很多有意思的地方,分享一下他们的解析资料:   淘宝海量数据产品技术架构   数据产品的一个最大特点是数据的非实时写入,正因为如此,我们可以认为,在一定的时间段内,整个系统的数据是只读的。
1572 1
|
存储 缓存 负载均衡
阿里 P9 架构师讲解从单机至亿级流量大型网站系统架构的演进过程
阿里 P9 架构师讲解从单机至亿级流量大型网站系统架构的演进过程
|
缓存 监控 Cloud Native
阿里大规模业务混部下的全链路资源隔离技术演进
本文作为混部实践系列开篇,本篇文章将介绍资源隔离技术在混部中的重要性、其落地挑战及我们的应对思路。
阿里大规模业务混部下的全链路资源隔离技术演进
|
存储 缓存 运维
高可用互联网系统稳定性建设实践指南
自己以及带领团队曾经负责较多不同的互联网服务系统,如几十万应用数&亿级流量的云计算平台、年营收将近千亿的广告系统、亿级用户千万级日活的用户系统、亿级交易额的交易系统、算法在线离线工程系统等相关系统或子系统,整体而言无重大故障,达到定级故障数也很少,线上稳定性保障在一个不错的水位上。阶段性总结下我自己从团队技术负责人视角做好稳定性建设的实践性思考和简要思路,为感兴趣的技术同学提供一个实践指南。 我的团队稳定性建设思路包括了3大技术要素:良好的系统架构和实现、完备的团队研发运维流程机制、技术同学良好意识和能力,以及1个业务要素:良好的研发项目管理。
高可用互联网系统稳定性建设实践指南
|
运维 资源调度 Cloud Native
【网商双十一】基于 ServiceMesh 技术的业务链路隔离技术及实践
基于容器、ServiceMesh 等云原生技术的「业务单元隔离」的方案更加轻量和灵活。当前我们已经实现了 RPC、调度以及 HTTP 流量的隔离,后续还将进一步完善支持消息等流量的隔离。
【网商双十一】基于 ServiceMesh 技术的业务链路隔离技术及实践