2020双11,Dubbo3.0 在考拉的超大规模实践

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
简介: 很多开发者一直以来好奇:阿里自己有没有在用Dubbo,会不会用Dubbo?在刚刚结束的双11,我们了解到阿里云今年提出了“三位一体”的理念,即将“自研技术”、“开源项目”、“商业产品”形成统一的技术体系,最大化技术的价值。终于,在2020的双11,阿里巴巴经济体也用上了Dubbo!本文是阿里双十一在考拉大规模落地 Dubbo3.0 的技术分享,系统介绍了 Dubbo3.0 在性能、稳定性上对考拉业务的支撑。

【Dubbo 3.0 前瞻系列】:

很多开发者一直以来好奇:阿里自己有没有在用Dubbo,会不会用Dubbo?在刚刚结束的双11,我们了解到阿里云今年提出了“三位一体”的理念,即将“自研技术”、“开源项目”、“商业产品”形成统一的技术体系,最大化技术的价值。终于,在2020的双11,阿里巴巴经济体也用上了Dubbo!本文是阿里双十一在考拉大规模落地 Dubbo3.0 的技术分享,系统介绍了 Dubbo3.0 在性能、稳定性上对考拉业务的支撑。

覃柳杰(花名:未宇)Github ID: qinliujie,Apache Dubbo PMC;阿里巴巴微服务框架 HSF 负责人,负责 HSF 研发及 Dubbo 在阿里的落地。

HSF 是阿里内部的分布式的服务框架,作为集团中间件最重要的中间件之一,历经十多届双十一大促,接受万亿级别流量的锤炼,十分的稳定与高效。另外一方面,Dubbo 是由阿里中间件开源出来的另一个服务框架,并且在 2019 年 5 月以顶级项目身份从 Apache 毕业,坐稳国内第一开源服务框架宝座,拥有非常广泛的用户群体。

在集团业务整体上云的大背景下,首要挑战是完成 HSF 与 Dubbo 的融合,以统一的服务框架支持云上业务,同时在此基础上衍生出适应用下一代云原生的服务框架 Dubbo 3.0,最终实现自研、开源、商业三位一体的目标。今年作为 HSF&Dubbo 融合之后的 Dubbo 3.0 在集团双十一落地的第一年,在兼容性、性能、稳定性上面都面临着不少的挑战。可喜的是,在今年双十一在考拉上面大规模使用,表现稳定,为今后在集团大规模上线提供了支撑。

Dubbo 3.0 总体方案

1.png

在上面的方案中,可以看出来我们是以 Dubbo 为核心,HSF 作为功能扩展点嵌入到其中,同时保留 HSF 原有的编程 API,以保证兼容性。为什么我们选址以 Dubbo 为核心基础进行融合,主要这两点的考量:

1.Dubbo 在外部拥有非常广泛的群众基础,以 Dubbo 为核心,符合开源、商业化的目标;

2.HSF 也经历过核心升级的情况,我们拥有比较丰富的处理经验,对于 Dubbo 3.0 新核心内部落地也是处于可控的范围之内。

选定这个方案之后,我们开始朝着这个方向努力,由于 Dubbo 开源已久,不像 HSF 这样经历过超大规模集群的考验验证,那么我们是如何去保证它的稳定性呢?

稳定性

为了保证新核心的稳定,我们从各个方面进行巩固,保证万无一失

1.功能测试

HSF3 共有集成用例数百个, 100% 覆盖到了 HSF 的核心功能;HSF3 的单测共有上千个,行覆盖率达到了 51.26%

2.混沌测试

为了面对突发的异常情况,我们也做了相应的演练测试,例如 CS 注册中心地址停推空保护测试、异常注入、断网等情况,以此验证我们的健壮性;例如,我们通过对部份机器进行断网,结果我们发现有比较多的异常抛多。

2.png

原因是 Dubbo 对异常服务端剔除不够及时,导致还会调用到异常服务器,出现大量报错。

同时,我们也构建了突发高并发情况下的场景,发现了一些瓶颈,例如:

3.png

瞬间大并发消耗掉绝大部分 CPU 。

3.性能优化

Dubbo 核心之前未经历过超大规模集团的考验,性能上面必将面临着巨大的挑战;对于 Dubbo 来说,优化主要从地址推送链路和调用服务链路两个链路来进行。对于地址推送链路,主要是减少内存的分配,优化数据结构,减少静态时地址占用内存对应用的影响,从而减少 ygc/fgc 造成的抖动问题。我们利用测试同学提供的风暴程序,模拟了反复推送海量地址的场景,通过优化,120万个 Dubbo 服务地址常态内存占用从 8.5G 下降到 1.5G,有效降低 GC 频率

4.png

另外一方面,在调用链路上,我们主要对选址过程、LoadBalancer、Filter 等进行优化,总体 CPU 下降达到 20%,RT 也有一个比较明显的下降。

5.png

成果

6.png

在双十一考拉零点高峰,某个 Dubbo 接口,总的流量达到了数百万次/每分钟 ,全程稳定顺滑,达到了预定的目标,Dubbo 3.0 是至重启开源以来,首次在这么大规模的场景进行验证,充分证明了 Dubbo 3.0 的稳定性。

结语

在本次双11考拉落地 Dubbo 3.0 只是在阿里内部全面落地 Dubbo3.0 的第一步,现在 Dubbo 3.0 云原生的新特性也如火如荼的进行开发与验证,如应用级服务发现、新一代云原生通信协议 Triple 等已经开始在集团电商应用开始进行 Beta 试点。

阿里微服务体系完成了通过开源构建生态和标准,通过云产品 MSE、EDAS 等完成产品化和能力输出,通过阿里内部场景锻炼高性能和高可用的核心竞争力。从而完成了三位一体的正向循环,通过标准持续输出阿里巴巴的核心竞争力,让外部企业快速享有阿里微服务能力,加速企业数字化转型!

Dubbo 3.0 sample @GitHub:https://github.com/apache/incubator-dubbo-samples/tree/3.x

Dubbo 社区

欢迎 Star 和共建:https://github.com/apache/dubbo

相关文章
|
2月前
|
XML Dubbo Java
【Dubbo3高级特性】「框架与服务」服务的异步调用实践以及开发模式
【Dubbo3高级特性】「框架与服务」服务的异步调用实践以及开发模式
97 0
|
Kubernetes Dubbo 应用服务中间件
Dubbo3实践:基于 API-SERVER 的原生 K8S Service
> 该示例演示了直接以 API-SERVER 为注册中心,将 Dubbo 应用部署到 Kubernetes 并复用 Kubernetes Native Service 的使用示例。 > > 此示例的局限在于需要授予每个 Dubbo 应用访问 API-SERVER 特定资源的权限,同时直接访问和监听 API-SERVER 对中小集群来说并没有什么问题,但对于较大规模集群而言可能给 API-SERV
453 0
|
2月前
|
负载均衡 监控 Dubbo
从理论到实践:Dubbo 的 `<dubbo:service>` 与 `<dubbo:reference>` 全面指南
从理论到实践:Dubbo 的 `<dubbo:service>` 与 `<dubbo:reference>` 全面指南
37 0
|
2月前
|
监控 负载均衡 Dubbo
分布式架构与Dubbo基础入门与实践
分布式架构与Dubbo基础入门与实践
41 1
|
9月前
|
监控 Dubbo Cloud Native
Apache Dubbo 云原生可观测性的探索与实践
Apache Dubbo 云原生可观测性的探索与实践
116860 3
|
9月前
|
运维 Dubbo 安全
政采云基于 Dubbo 的混合云数据跨网实践
政采云基于 Dubbo 的混合云数据跨网实践
|
11月前
|
存储 运维 监控
Apache Dubbo 云原生可观测性的探索与实践
Apache Dubbo 已接入指标、链路、日志等多维度观测能力,助力云原生实践,本文将介绍 Dubbo 可观测性的探索与实践。
Apache Dubbo 云原生可观测性的探索与实践
|
9月前
|
Kubernetes Dubbo 应用服务中间件
GitHub标星35k+微服务深度原理实践进阶PDF,竟让阿里换下了Dubbo
最近一个粉丝分享了他悲惨的阿里面试故事,好不容易冲进三面,最后凉了! 关键在于微服务部分没回答好。 本人自己说在看到这些面试真题之后人都是懵的,之前这方面也没有很重视,结局就很可惜了。 今天先结合我这个粉丝的经历和面的题,分析一下微服务,以及我在这方面的学习经验也给大家分享一下。
|
机器学习/深度学习 运维 Dubbo
全国首个政企采购云平台:政采云基于 Dubbo 的混合云跨网方案实践
全国首个政企采购云平台:政采云基于 Dubbo 的混合云跨网方案实践
全国首个政企采购云平台:政采云基于 Dubbo 的混合云跨网方案实践
|
自然语言处理 Kubernetes Dubbo
Dubbo3 在同程旅行的实践
目前 Dubbo3 在公司的落地开发工作已经完成,通过本文我们对公司内部 Dubbo3 的实践及收益做了深入总结。
145 0
Dubbo3 在同程旅行的实践