《Java应用提速(速度与激情)》——六、阿里中间件提速

简介: 《Java应用提速(速度与激情)》——六、阿里中间件提速

在阿里集团的大部分应用都是依赖了各种中间件的Java应用,通过对核心中间件的集中优化,提升了各Java应用的整体启动时间,提速8%。

 

1. Dubbo3启动优化

 

1) 现状

 

Dubbo3作为阿里巴巴使用最为广泛的分布式服务框架,服务集团内数万个应用,它的重要性自然不言而喻;但是随着业务的发展,应用依赖的Jar包和HSF服务也变得越来越多,导致应用启动速度变得越来越慢,接下来我们将看一下Dubbo3如何优化启动速度。

 

2) Dubbo3为什么会慢

 

Dubbo3作为一个优秀的RPC服务框架,当然能够让用户能够进行灵活扩展,因此Dubbo3框架提供各种各样的扩展点一共200+个。

 

Dubbo3的扩展点机制有点类似Java准的SPI机制,但是Dubbo3设置了3个不同的加载路径,具体的加载路径如下:

META-INF/dubbo/internal/
META-INF/dubbo/
META-INF/services/

也就是说,一个SPI的加载,一个classLoader就需要扫描这个classLoader下所有的Jar包3次。

 

以热点应用A为例,总的业务bundle classLoader数达到582个左右,那么所有的SPI加载需要的次数为200spi*3路径*582classloader=349200次。

 

可以看到扫描次数接近35万次!并且整个过程是串行扫描的,而我们知道java.lang.ClassLoader#getResources是一个比较耗时的操作,因此整个SPI加载过程耗时是非常久的。

 

3) SPI加载慢的解决方法

 

由我们前面的分析可以知道,要想减少耗时,第一是需要减少SPI扫描的次数,第二是提升并发度,减少无效等待时间。

 

第一个减少SPI扫描的次数,我们经过分析得知,在整个集团的业务应用中,使用到的SPI集中在不到10个SPI,因此我们疏理出一个SPI列表,在这个SPI列表中,默认只从Dubbo3框架所在classLoader的限定目录加载,这样大大下降了扫描次数,使热点应用A总扫描计数下降到不到2万次,占原来的次数5%这样。

 

第二个提升了对多个classLoader扫描的效率,采用并发线程池的方式来减少等待的时间,具体代码如下:

CountDownLatch countDownLatch = new CountDownLatch(classLoaders.size());
for (ClassLoader classLoader : classLoaders) {
    GlobalResourcesRepository.getGlobalExecutorService().submit(() -> {
        resources.put(classLoader, loadResources(fileName, classLoader));
        countDownLatch.countDown();
    });
}

 

4) 其他优化手段

 

去除启动关键链路的非必要同步耗时动作,转成异步后台处理。

缓存启动过程中查询第三方可缓存的结果,反复重复使用。

 

5) 优化结果

 

热点应用A启动时间从603秒下降到220秒,总体时间下降了383秒。

 

2. TairClient启动优化

 

背景介绍

 

tair:阿里巴巴内部的缓存服务,类似于公有云的redis

diamond:阿里巴巴内部配置中心,目前已经升级成MSE,和公有云一样的中间件产品

 

1) 现状

 

目前中台基础服务使用的tair集群均使用独立集群,独立集群中使用多个NS(命名空间)来区分不同的业务域,同时部分小的业务也会和其他业务共享一个公共集群内单个NS。

 

早期tair的集群是通过configID进行初始化,后来为了容灾及设计上的考虑,调整为使用username进行初始化访问,但username内部还是会使用configid来确定需要链接的集群。整个tair初始化过程中读取的diamond配置的流程如下:

 

a) 根据userName获取配置信息,从配置信息中可以获得TairConfigId信息,用于标识所在集群

 

Dataidocs.userinfo.{username}

GroupDEFAULT_GROUP

 image.png

 

b) 根据ConfigId信息,获取当前tair的路由规则,规定某一个机房会访问的集群信息。

 

dataId{tairConfigId}

group{tairConfigId}.TGROUP

 

通过该配置可以确定当前机房会访问的目标集群配置,以na610为例,对应的配置集群tair.mdb.mc.uic.NA61

 image.png

 

c) 获取对应集群的信息,确定tair集群的cs列表

 

Dataid{tairConfigId} // tair.mdb.mc.uic

Group{tairClusterConfig} // tair.mdb.mc.uic.NA61

 image.png

 

从上面的分析来看,在每次初始化的过程中,都会访问相同的diamond配置,在初始化多个同集群的namespace的时候,部分关键配置就会多次访问。但实际这部分diamond配置的数据本身是完全一致。

 

由于diamond本身为了保护自身的稳定性,在客户端对访问单个配置的频率做了控制,超过一定的频率会进入等待超时阶段,这一部分导致了应用的启动延迟。

 

在一分钟的时间窗口内,限制单个diamond配置的访问次数低于-DlimitTime配置,默认配置为5,对于超过限制的配置会进入等待状态。

 image.png

 

2) 优化方案

 

tair客户端进行改造,启动过程中,对Diamond的配置数据做缓存,配置监听器维护缓存的数据一致性,tair客户端启动时,优先从缓存中获取配置,当缓存获取不到时,再重新配置Diamond配置监听及获取Diamond配置信息。

 

3. SwitchCenter启动优化

 

背景介绍

 

SwitchCenter:阿里巴巴集团内部的开关平台,对应阿里云AHAS云产品:https://help.aliyun.com/document_detail/155939.html

 

1) 现状

 

All methods add synchronized made this class to be thread safe. switch op is not frequent, so don't care about performance here.

 

这是switch源码里存放各个switch bean的SwitchContainer中的注释,可见当时的作者认为switch bean只需初始化一次,本身对性能的影响不大。但没有预料到随着业务的增长,switch bean的初始化可能会成为应用启动的瓶颈。

 

业务平台的定位导致了平台启动期间有大量业务容器初始化,由于switch中间件的大部分方法全部被synchronized修饰,因此所有应用容器初始化到了加载开关配置时入口为com.taobao.csp.switchcenter.core.SwitchManager#init()就需要串行执行,严重影响启动速度。

 

2) 解决方案

 

去除了关键路径上的所有锁。

 

3) 原理

 

本次升级将存放配置的核心数据结构修改为了ConcurrentMap,并基于putIfAbsent等j.u.c API做了小重构。值得关注的是修改后原先串行的对diamond配置的获取变成了并行,触发了diamond服务端限流,在大量获取相同开关配置的情况下有很大概率抛异常启动失败。

image.png

上:去锁后,配置获取的总次数不变,但是请求速率变快

 

为了避免上述问题

 

在本地缓存switch配置的获取

diamond监听switch配置的变更,确保即使switch配置被更新,本地的缓存依然是最新的

 

4. TDDL启动优化

 

背景介绍

 

TDDL:基于Java语言的分布式数据库系统,核心能力包括:分库分表、透明读写分离、数据存储平滑扩容、成熟的管控系统。

 

1) 现状

 

TDDL在启动过程,随着分库分表规则的增加,启动耗时呈线性上涨趋势,在国际化多站点的场景下,耗时增长会特别明显,未优化前,我们一个核心应用TDDL启动耗时为120秒+(6个库),单个库启动耗时20秒+,且通过多个库并行启动,无法有效降低耗时。

 

2) 解决方案

 

通过工具分析,发现将分库分表规则转成groovy脚本,并生成groovy的class,这块逻辑总耗时非常久,调用次数非常多,且groovy在parseClass里头有加锁(所以并行无效果)。调用次数多,是因为生成class的个数,会剩以物理表的数量,比如配置里只有一个逻辑表+一个规则(不同表的规则也存在大量重复),分成1024张物理表,实际启动时会产生1024个规则类,存在大量的重复,不仅启动慢,还浪费了很多metaspace。

 

优化方案是新增一个全局的GuavaCache,将规则和生成的规则类实例存放进去,避免相同的规则去创建不同的类和实例。

 image.png

相关文章
|
2月前
|
人工智能 安全 Java
Java和Python在企业中的应用情况
Java和Python在企业中的应用情况
69 7
|
15天前
|
安全 算法 Java
Java CAS原理和应用场景大揭秘:你掌握了吗?
CAS(Compare and Swap)是一种乐观锁机制,通过硬件指令实现原子操作,确保多线程环境下对共享变量的安全访问。它避免了传统互斥锁的性能开销和线程阻塞问题。CAS操作包含三个步骤:获取期望值、比较当前值与期望值是否相等、若相等则更新为新值。CAS广泛应用于高并发场景,如数据库事务、分布式锁、无锁数据结构等,但需注意ABA问题。Java中常用`java.util.concurrent.atomic`包下的类支持CAS操作。
46 2
|
29天前
|
存储 NoSQL 架构师
阿里面试:聊聊 CAP 定理?哪些中间件是AP?为什么?
本文深入探讨了分布式系统中的“不可能三角”——CAP定理,即一致性(C)、可用性(A)和分区容错性(P)三者无法兼得。通过实例分析了不同场景下如何权衡CAP,并介绍了几种典型分布式中间件的CAP策略,强调了理解CAP定理对于架构设计的重要性。
59 4
|
2月前
|
缓存 Java 开发者
Java多线程并发编程:同步机制与实践应用
本文深入探讨Java多线程中的同步机制,分析了多线程并发带来的数据不一致等问题,详细介绍了`synchronized`关键字、`ReentrantLock`显式锁及`ReentrantReadWriteLock`读写锁的应用,结合代码示例展示了如何有效解决竞态条件,提升程序性能与稳定性。
175 6
|
1月前
|
监控 Java 数据库连接
Java线程管理:守护线程与用户线程的区分与应用
在Java多线程编程中,线程可以分为守护线程(Daemon Thread)和用户线程(User Thread)。这两种线程在行为和用途上有着明显的区别,了解它们的差异对于编写高效、稳定的并发程序至关重要。
40 2
|
2月前
|
Web App开发 JSON JavaScript
Node.js 中的中间件机制与 Express 应用
Node.js 中的中间件机制与 Express 应用
|
2月前
|
安全 Java 开发者
Java 多线程并发控制:深入理解与实战应用
《Java多线程并发控制:深入理解与实战应用》一书详细解析了Java多线程编程的核心概念、并发控制技术及其实战技巧,适合Java开发者深入学习和实践参考。
70 6
|
2月前
|
关系型数据库 MySQL Java
MySQL索引优化与Java应用实践
【11月更文挑战第25天】在大数据量和高并发的业务场景下,MySQL数据库的索引优化是提升查询性能的关键。本文将深入探讨MySQL索引的多种类型、优化策略及其在Java应用中的实践,通过历史背景、业务场景、底层原理的介绍,并结合Java示例代码,帮助Java架构师更好地理解并应用这些技术。
60 2
|
2月前
|
存储 安全 Java
Java多线程编程中的并发容器:深入解析与实战应用####
在本文中,我们将探讨Java多线程编程中的一个核心话题——并发容器。不同于传统单一线程环境下的数据结构,并发容器专为多线程场景设计,确保数据访问的线程安全性和高效性。我们将从基础概念出发,逐步深入到`java.util.concurrent`包下的核心并发容器实现,如`ConcurrentHashMap`、`CopyOnWriteArrayList`以及`BlockingQueue`等,通过实例代码演示其使用方法,并分析它们背后的设计原理与适用场景。无论你是Java并发编程的初学者还是希望深化理解的开发者,本文都将为你提供有价值的见解与实践指导。 --- ####
|
2月前
|
Java 测试技术 API
Java 反射机制:深入解析与应用实践
《Java反射机制:深入解析与应用实践》全面解析Java反射API,探讨其内部运作原理、应用场景及最佳实践,帮助开发者掌握利用反射增强程序灵活性与可扩展性的技巧。
127 4