《Java应用提速(速度与激情)》——六、阿里中间件提速

简介: 《Java应用提速(速度与激情)》——六、阿里中间件提速

在阿里集团的大部分应用都是依赖了各种中间件的Java应用,通过对核心中间件的集中优化,提升了各Java应用的整体启动时间,提速8%。

 

1. Dubbo3启动优化

 

1) 现状

 

Dubbo3作为阿里巴巴使用最为广泛的分布式服务框架,服务集团内数万个应用,它的重要性自然不言而喻;但是随着业务的发展,应用依赖的Jar包和HSF服务也变得越来越多,导致应用启动速度变得越来越慢,接下来我们将看一下Dubbo3如何优化启动速度。

 

2) Dubbo3为什么会慢

 

Dubbo3作为一个优秀的RPC服务框架,当然能够让用户能够进行灵活扩展,因此Dubbo3框架提供各种各样的扩展点一共200+个。

 

Dubbo3的扩展点机制有点类似Java准的SPI机制,但是Dubbo3设置了3个不同的加载路径,具体的加载路径如下:

META-INF/dubbo/internal/
META-INF/dubbo/
META-INF/services/

也就是说,一个SPI的加载,一个classLoader就需要扫描这个classLoader下所有的Jar包3次。

 

以热点应用A为例,总的业务bundle classLoader数达到582个左右,那么所有的SPI加载需要的次数为200spi*3路径*582classloader=349200次。

 

可以看到扫描次数接近35万次!并且整个过程是串行扫描的,而我们知道java.lang.ClassLoader#getResources是一个比较耗时的操作,因此整个SPI加载过程耗时是非常久的。

 

3) SPI加载慢的解决方法

 

由我们前面的分析可以知道,要想减少耗时,第一是需要减少SPI扫描的次数,第二是提升并发度,减少无效等待时间。

 

第一个减少SPI扫描的次数,我们经过分析得知,在整个集团的业务应用中,使用到的SPI集中在不到10个SPI,因此我们疏理出一个SPI列表,在这个SPI列表中,默认只从Dubbo3框架所在classLoader的限定目录加载,这样大大下降了扫描次数,使热点应用A总扫描计数下降到不到2万次,占原来的次数5%这样。

 

第二个提升了对多个classLoader扫描的效率,采用并发线程池的方式来减少等待的时间,具体代码如下:

CountDownLatch countDownLatch = new CountDownLatch(classLoaders.size());
for (ClassLoader classLoader : classLoaders) {
    GlobalResourcesRepository.getGlobalExecutorService().submit(() -> {
        resources.put(classLoader, loadResources(fileName, classLoader));
        countDownLatch.countDown();
    });
}

 

4) 其他优化手段

 

去除启动关键链路的非必要同步耗时动作,转成异步后台处理。

缓存启动过程中查询第三方可缓存的结果,反复重复使用。

 

5) 优化结果

 

热点应用A启动时间从603秒下降到220秒,总体时间下降了383秒。

 

2. TairClient启动优化

 

背景介绍

 

tair:阿里巴巴内部的缓存服务,类似于公有云的redis

diamond:阿里巴巴内部配置中心,目前已经升级成MSE,和公有云一样的中间件产品

 

1) 现状

 

目前中台基础服务使用的tair集群均使用独立集群,独立集群中使用多个NS(命名空间)来区分不同的业务域,同时部分小的业务也会和其他业务共享一个公共集群内单个NS。

 

早期tair的集群是通过configID进行初始化,后来为了容灾及设计上的考虑,调整为使用username进行初始化访问,但username内部还是会使用configid来确定需要链接的集群。整个tair初始化过程中读取的diamond配置的流程如下:

 

a) 根据userName获取配置信息,从配置信息中可以获得TairConfigId信息,用于标识所在集群

 

Dataidocs.userinfo.{username}

GroupDEFAULT_GROUP

 image.png

 

b) 根据ConfigId信息,获取当前tair的路由规则,规定某一个机房会访问的集群信息。

 

dataId{tairConfigId}

group{tairConfigId}.TGROUP

 

通过该配置可以确定当前机房会访问的目标集群配置,以na610为例,对应的配置集群tair.mdb.mc.uic.NA61

 image.png

 

c) 获取对应集群的信息,确定tair集群的cs列表

 

Dataid{tairConfigId} // tair.mdb.mc.uic

Group{tairClusterConfig} // tair.mdb.mc.uic.NA61

 image.png

 

从上面的分析来看,在每次初始化的过程中,都会访问相同的diamond配置,在初始化多个同集群的namespace的时候,部分关键配置就会多次访问。但实际这部分diamond配置的数据本身是完全一致。

 

由于diamond本身为了保护自身的稳定性,在客户端对访问单个配置的频率做了控制,超过一定的频率会进入等待超时阶段,这一部分导致了应用的启动延迟。

 

在一分钟的时间窗口内,限制单个diamond配置的访问次数低于-DlimitTime配置,默认配置为5,对于超过限制的配置会进入等待状态。

 image.png

 

2) 优化方案

 

tair客户端进行改造,启动过程中,对Diamond的配置数据做缓存,配置监听器维护缓存的数据一致性,tair客户端启动时,优先从缓存中获取配置,当缓存获取不到时,再重新配置Diamond配置监听及获取Diamond配置信息。

 

3. SwitchCenter启动优化

 

背景介绍

 

SwitchCenter:阿里巴巴集团内部的开关平台,对应阿里云AHAS云产品:https://help.aliyun.com/document_detail/155939.html

 

1) 现状

 

All methods add synchronized made this class to be thread safe. switch op is not frequent, so don't care about performance here.

 

这是switch源码里存放各个switch bean的SwitchContainer中的注释,可见当时的作者认为switch bean只需初始化一次,本身对性能的影响不大。但没有预料到随着业务的增长,switch bean的初始化可能会成为应用启动的瓶颈。

 

业务平台的定位导致了平台启动期间有大量业务容器初始化,由于switch中间件的大部分方法全部被synchronized修饰,因此所有应用容器初始化到了加载开关配置时入口为com.taobao.csp.switchcenter.core.SwitchManager#init()就需要串行执行,严重影响启动速度。

 

2) 解决方案

 

去除了关键路径上的所有锁。

 

3) 原理

 

本次升级将存放配置的核心数据结构修改为了ConcurrentMap,并基于putIfAbsent等j.u.c API做了小重构。值得关注的是修改后原先串行的对diamond配置的获取变成了并行,触发了diamond服务端限流,在大量获取相同开关配置的情况下有很大概率抛异常启动失败。

image.png

上:去锁后,配置获取的总次数不变,但是请求速率变快

 

为了避免上述问题

 

在本地缓存switch配置的获取

diamond监听switch配置的变更,确保即使switch配置被更新,本地的缓存依然是最新的

 

4. TDDL启动优化

 

背景介绍

 

TDDL:基于Java语言的分布式数据库系统,核心能力包括:分库分表、透明读写分离、数据存储平滑扩容、成熟的管控系统。

 

1) 现状

 

TDDL在启动过程,随着分库分表规则的增加,启动耗时呈线性上涨趋势,在国际化多站点的场景下,耗时增长会特别明显,未优化前,我们一个核心应用TDDL启动耗时为120秒+(6个库),单个库启动耗时20秒+,且通过多个库并行启动,无法有效降低耗时。

 

2) 解决方案

 

通过工具分析,发现将分库分表规则转成groovy脚本,并生成groovy的class,这块逻辑总耗时非常久,调用次数非常多,且groovy在parseClass里头有加锁(所以并行无效果)。调用次数多,是因为生成class的个数,会剩以物理表的数量,比如配置里只有一个逻辑表+一个规则(不同表的规则也存在大量重复),分成1024张物理表,实际启动时会产生1024个规则类,存在大量的重复,不仅启动慢,还浪费了很多metaspace。

 

优化方案是新增一个全局的GuavaCache,将规则和生成的规则类实例存放进去,避免相同的规则去创建不同的类和实例。

 image.png

相关文章
|
18天前
|
JSON Java Apache
非常实用的Http应用框架,杜绝Java Http 接口对接繁琐编程
UniHttp 是一个声明式的 HTTP 接口对接框架,帮助开发者快速对接第三方 HTTP 接口。通过 @HttpApi 注解定义接口,使用 @GetHttpInterface 和 @PostHttpInterface 等注解配置请求方法和参数。支持自定义代理逻辑、全局请求参数、错误处理和连接池配置,提高代码的内聚性和可读性。
|
27天前
|
人工智能 前端开发 Java
基于开源框架Spring AI Alibaba快速构建Java应用
本文旨在帮助开发者快速掌握并应用 Spring AI Alibaba,提升基于 Java 的大模型应用开发效率和安全性。
基于开源框架Spring AI Alibaba快速构建Java应用
|
20天前
|
SQL Java 数据库连接
从理论到实践:Hibernate与JPA在Java项目中的实际应用
本文介绍了Java持久层框架Hibernate和JPA的基本概念及其在具体项目中的应用。通过一个在线书店系统的实例,展示了如何使用@Entity注解定义实体类、通过Spring Data JPA定义仓库接口、在服务层调用方法进行数据库操作,以及使用JPQL编写自定义查询和管理事务。这些技术不仅简化了数据库操作,还显著提升了开发效率。
33 3
|
1月前
|
SQL 监控 Java
技术前沿:Java连接池技术的最新发展与应用
本文探讨了Java连接池技术的最新发展与应用,包括高性能与低延迟、智能化管理和监控、扩展性与兼容性等方面。同时,结合最佳实践,介绍了如何选择合适的连接池库、合理配置参数、使用监控工具及优化数据库操作,为开发者提供了一份详尽的技术指南。
32 7
|
28天前
|
SQL Java 数据库连接
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率。本文介绍了连接池的工作原理、优势及实现方法,并提供了HikariCP的示例代码。
44 3
|
28天前
|
存储 Java 关系型数据库
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践,包括连接创建、分配、复用和释放等操作,并通过电商应用实例展示了如何选择合适的连接池库(如HikariCP)和配置参数,实现高效、稳定的数据库连接管理。
52 2
|
29天前
|
缓存 Java 数据库连接
Hibernate:Java持久层框架的高效应用
通过上述步骤,可以在Java项目中高效应用Hibernate框架,实现对关系数据库的透明持久化管理。Hibernate提供的强大功能和灵活配置,使得开发者能够专注于业务逻辑的实现,而不必过多关注底层数据库操作。
13 1
|
2月前
|
移动开发 前端开发 JavaScript
java家政系统成品源码的关键特点和技术应用
家政系统成品源码是已开发完成的家政服务管理软件,支持用户注册、登录、管理个人资料,家政人员信息管理,服务项目分类,订单与预约管理,支付集成,评价与反馈,地图定位等功能。适用于各种规模的家政服务公司,采用uniapp、SpringBoot、MySQL等技术栈,确保高效管理和优质用户体验。
|
2月前
|
SQL 监控 Java
Java性能优化:提升应用效率与响应速度的全面指南
【10月更文挑战第21】Java性能优化:提升应用效率与响应速度的全面指南
|
1月前
|
Java 开发者
Java中的多线程基础与应用
【10月更文挑战第24天】在Java的世界中,多线程是提高效率和实现并发处理的关键。本文将深入浅出地介绍如何在Java中创建和管理多线程,以及如何通过同步机制确保数据的安全性。我们将一起探索线程生命周期的奥秘,并通过实例学习如何优化多线程的性能。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编程的大门。
18 0