《Java应用提速(速度与激情)》——六、阿里中间件提速

简介: 《Java应用提速(速度与激情)》——六、阿里中间件提速

在阿里集团的大部分应用都是依赖了各种中间件的Java应用,通过对核心中间件的集中优化,提升了各Java应用的整体启动时间,提速8%。

 

1. Dubbo3启动优化

 

1) 现状

 

Dubbo3作为阿里巴巴使用最为广泛的分布式服务框架,服务集团内数万个应用,它的重要性自然不言而喻;但是随着业务的发展,应用依赖的Jar包和HSF服务也变得越来越多,导致应用启动速度变得越来越慢,接下来我们将看一下Dubbo3如何优化启动速度。

 

2) Dubbo3为什么会慢

 

Dubbo3作为一个优秀的RPC服务框架,当然能够让用户能够进行灵活扩展,因此Dubbo3框架提供各种各样的扩展点一共200+个。

 

Dubbo3的扩展点机制有点类似Java准的SPI机制,但是Dubbo3设置了3个不同的加载路径,具体的加载路径如下:

META-INF/dubbo/internal/
META-INF/dubbo/
META-INF/services/

也就是说,一个SPI的加载,一个classLoader就需要扫描这个classLoader下所有的Jar包3次。

 

以热点应用A为例,总的业务bundle classLoader数达到582个左右,那么所有的SPI加载需要的次数为200spi*3路径*582classloader=349200次。

 

可以看到扫描次数接近35万次!并且整个过程是串行扫描的,而我们知道java.lang.ClassLoader#getResources是一个比较耗时的操作,因此整个SPI加载过程耗时是非常久的。

 

3) SPI加载慢的解决方法

 

由我们前面的分析可以知道,要想减少耗时,第一是需要减少SPI扫描的次数,第二是提升并发度,减少无效等待时间。

 

第一个减少SPI扫描的次数,我们经过分析得知,在整个集团的业务应用中,使用到的SPI集中在不到10个SPI,因此我们疏理出一个SPI列表,在这个SPI列表中,默认只从Dubbo3框架所在classLoader的限定目录加载,这样大大下降了扫描次数,使热点应用A总扫描计数下降到不到2万次,占原来的次数5%这样。

 

第二个提升了对多个classLoader扫描的效率,采用并发线程池的方式来减少等待的时间,具体代码如下:

CountDownLatch countDownLatch = new CountDownLatch(classLoaders.size());
for (ClassLoader classLoader : classLoaders) {
    GlobalResourcesRepository.getGlobalExecutorService().submit(() -> {
        resources.put(classLoader, loadResources(fileName, classLoader));
        countDownLatch.countDown();
    });
}

 

4) 其他优化手段

 

去除启动关键链路的非必要同步耗时动作,转成异步后台处理。

缓存启动过程中查询第三方可缓存的结果,反复重复使用。

 

5) 优化结果

 

热点应用A启动时间从603秒下降到220秒,总体时间下降了383秒。

 

2. TairClient启动优化

 

背景介绍

 

tair:阿里巴巴内部的缓存服务,类似于公有云的redis

diamond:阿里巴巴内部配置中心,目前已经升级成MSE,和公有云一样的中间件产品

 

1) 现状

 

目前中台基础服务使用的tair集群均使用独立集群,独立集群中使用多个NS(命名空间)来区分不同的业务域,同时部分小的业务也会和其他业务共享一个公共集群内单个NS。

 

早期tair的集群是通过configID进行初始化,后来为了容灾及设计上的考虑,调整为使用username进行初始化访问,但username内部还是会使用configid来确定需要链接的集群。整个tair初始化过程中读取的diamond配置的流程如下:

 

a) 根据userName获取配置信息,从配置信息中可以获得TairConfigId信息,用于标识所在集群

 

Dataidocs.userinfo.{username}

GroupDEFAULT_GROUP

 image.png

 

b) 根据ConfigId信息,获取当前tair的路由规则,规定某一个机房会访问的集群信息。

 

dataId{tairConfigId}

group{tairConfigId}.TGROUP

 

通过该配置可以确定当前机房会访问的目标集群配置,以na610为例,对应的配置集群tair.mdb.mc.uic.NA61

 image.png

 

c) 获取对应集群的信息,确定tair集群的cs列表

 

Dataid{tairConfigId} // tair.mdb.mc.uic

Group{tairClusterConfig} // tair.mdb.mc.uic.NA61

 image.png

 

从上面的分析来看,在每次初始化的过程中,都会访问相同的diamond配置,在初始化多个同集群的namespace的时候,部分关键配置就会多次访问。但实际这部分diamond配置的数据本身是完全一致。

 

由于diamond本身为了保护自身的稳定性,在客户端对访问单个配置的频率做了控制,超过一定的频率会进入等待超时阶段,这一部分导致了应用的启动延迟。

 

在一分钟的时间窗口内,限制单个diamond配置的访问次数低于-DlimitTime配置,默认配置为5,对于超过限制的配置会进入等待状态。

 image.png

 

2) 优化方案

 

tair客户端进行改造,启动过程中,对Diamond的配置数据做缓存,配置监听器维护缓存的数据一致性,tair客户端启动时,优先从缓存中获取配置,当缓存获取不到时,再重新配置Diamond配置监听及获取Diamond配置信息。

 

3. SwitchCenter启动优化

 

背景介绍

 

SwitchCenter:阿里巴巴集团内部的开关平台,对应阿里云AHAS云产品:https://help.aliyun.com/document_detail/155939.html

 

1) 现状

 

All methods add synchronized made this class to be thread safe. switch op is not frequent, so don't care about performance here.

 

这是switch源码里存放各个switch bean的SwitchContainer中的注释,可见当时的作者认为switch bean只需初始化一次,本身对性能的影响不大。但没有预料到随着业务的增长,switch bean的初始化可能会成为应用启动的瓶颈。

 

业务平台的定位导致了平台启动期间有大量业务容器初始化,由于switch中间件的大部分方法全部被synchronized修饰,因此所有应用容器初始化到了加载开关配置时入口为com.taobao.csp.switchcenter.core.SwitchManager#init()就需要串行执行,严重影响启动速度。

 

2) 解决方案

 

去除了关键路径上的所有锁。

 

3) 原理

 

本次升级将存放配置的核心数据结构修改为了ConcurrentMap,并基于putIfAbsent等j.u.c API做了小重构。值得关注的是修改后原先串行的对diamond配置的获取变成了并行,触发了diamond服务端限流,在大量获取相同开关配置的情况下有很大概率抛异常启动失败。

image.png

上:去锁后,配置获取的总次数不变,但是请求速率变快

 

为了避免上述问题

 

在本地缓存switch配置的获取

diamond监听switch配置的变更,确保即使switch配置被更新,本地的缓存依然是最新的

 

4. TDDL启动优化

 

背景介绍

 

TDDL:基于Java语言的分布式数据库系统,核心能力包括:分库分表、透明读写分离、数据存储平滑扩容、成熟的管控系统。

 

1) 现状

 

TDDL在启动过程,随着分库分表规则的增加,启动耗时呈线性上涨趋势,在国际化多站点的场景下,耗时增长会特别明显,未优化前,我们一个核心应用TDDL启动耗时为120秒+(6个库),单个库启动耗时20秒+,且通过多个库并行启动,无法有效降低耗时。

 

2) 解决方案

 

通过工具分析,发现将分库分表规则转成groovy脚本,并生成groovy的class,这块逻辑总耗时非常久,调用次数非常多,且groovy在parseClass里头有加锁(所以并行无效果)。调用次数多,是因为生成class的个数,会剩以物理表的数量,比如配置里只有一个逻辑表+一个规则(不同表的规则也存在大量重复),分成1024张物理表,实际启动时会产生1024个规则类,存在大量的重复,不仅启动慢,还浪费了很多metaspace。

 

优化方案是新增一个全局的GuavaCache,将规则和生成的规则类实例存放进去,避免相同的规则去创建不同的类和实例。

 image.png

相关文章
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
634 33
|
28天前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
169 3
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1171 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
30天前
|
消息中间件 缓存 Java
Spring框架优化:提高Java应用的性能与适应性
以上方法均旨在综合考虑Java Spring 应该程序设计原则, 数据库交互, 编码实践和系统架构布局等多角度因素, 旨在达到高效稳定运转目标同时也易于未来扩展.
96 8
|
2月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
354 12
|
2月前
|
安全 Java API
Java SE 与 Java EE 区别解析及应用场景对比
在Java编程世界中,Java SE(Java Standard Edition)和Java EE(Java Enterprise Edition)是两个重要的平台版本,它们各自有着独特的定位和应用场景。理解它们之间的差异,对于开发者选择合适的技术栈进行项目开发至关重要。
265 1
|
3月前
|
设计模式 XML 安全
Java枚举(Enum)与设计模式应用
Java枚举不仅是类型安全的常量,还具备面向对象能力,可添加属性与方法,实现接口。通过枚举能优雅实现单例、策略、状态等设计模式,具备线程安全、序列化安全等特性,是编写高效、安全代码的利器。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。

热门文章

最新文章