《Java应用提速(速度与激情)》——一、maven构建提速(上)

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 《Java应用提速(速度与激情)》——一、maven构建提速(上)

1. 现状

 

maven其实并不是拖拉机。

 

相对于ant时代来说,maven是一辆大奔。但随着业务越来越复杂,我们为业务提供服务的软件也越来越复杂。虽然我们在提倡要降低软件复杂度,但对于复杂的业务来说,降低了复杂度的软件还是复杂的。

 

在这些年,随着业务竞争越来越激励,业务越来越复杂,软件也越来越复杂。而maven却还是几年的版本。在2012年推出maven3.0.0以来,直到现在的2022年,正好十年,但maven最新版本还是3系列3.8.6。所以在十年后的今天,站在复杂软件面前,maven变成了一辆拖拉机。

 

编码也是一种艺术,对于我们一线研发同学来说,每个人都期望变成一名艺术家,而不是一个码农。但如一次构建大于3分钟,会将我们从一名高雅的艺术家沦为一名焦虑的码农,因为项目的deadline是放的那么地显眼。

 

我们可能有过这样体验,编码几分钟,代码提交后,CI/CD中的构建却要10多分钟。特别是在项目联调阶段,代码修改会越频率,但一天解决不了几个BUG因为时间都花在等待构建阶段上了。

 

我们曾经错过了多少个夏天的晚霞与秋天的朝霞,都是因为等待构建与编译而工作到凌晨。

 

2. 解决方案

 

在这十年,虽然maven还是停留在主版本号是3,但当今业界也不断出现了优秀的构建工具,如gradlebazel。但因各工具的生态不同,同时工具间迁移有成本与风险,所以目前在Java服务端应用仍是以maven构建为主。所以我们在apache-maven的基础上,参照gradlebazel等其它工具的思路,进行了优化,并以“amaven”命名。

 

因为amaven完全兼容apache-maven,所支持的命令与参数都兼容,所以对我们研发同学来说,只要修改一个maven的版本号。

 

3. 效果

 

从目前试验来看,对于mvn build耗时在3分钟以上的应用有效果。对于典型应用从2325秒降到188秒,提升了10倍多。

 

我们再来看持续了一个时间段后的总体效果,典型应用使用amaven后,构建耗时p95的时间有较明显下降,对比使用前后二个月的构建耗时降了50%左右。

image.png 

 

4. 原理

 

如果说发动机是一辆车的灵魂,那依赖管理就是maven的灵魂。

 

因为maven就是为了系统化的管理依赖而产生的工具。使用过maven的同学都清楚,我们将依赖写在pom.xml中,而这依赖又定义了自己的依赖在自己的pom.xml。通过pom文件的层次化来管理依赖的确让我们方便很多。

 

我们平常说的maven其实指二样东西,一个是maven工具,一个是maven仓库。

 

maven工具主要是mvn命令,我们在执行mvn compile等命令时,maven会先不断解析pom中的依赖,如某个依赖本地没有则会从maven仓库下载到本地,再递归解析与下载“依赖的依赖”,最后生成一个dependencyGraph,然后再将graph中的依赖的jar列表成classPath中的参数进行Javac,从而完成一次编译。如再加上一些插件执行,则一次典型的maven构建过程,会是这样:

 image.png

 

从上图可以看出,maven构建主要有二个阶段,而第一阶段是第二阶段的基础,基本上大部分的插件都会使用第一阶段产生的依赖树:

 

解析应用的pom及依赖的pom,生成依赖树;在解析过程中,一般还会从maven仓库下载新增的依赖或更新了的snapshot包。

 

执行各maven插件。

 

我们也通过分析实际的构建日志,发现大于3分钟的maven构建,瓶颈都在“生成依赖树”阶段。而“生成依赖树”阶段慢的根本原因是一个module配置的依赖太多太复杂,它表现为:

 

依赖太多,则要从maven仓库下载的可能性越大。

依赖太复杂,则依赖树解析过程中递归次数越多。

 

既然说发动机是车子的灵魂,那要让车子跑的更快,最核心的就要不断改造发动机的性能;既然说依赖管理是maven的灵魂,那要让maven执行的快,最核心的就要不断“改造”依赖分析的性能。

 

在amaven中通过优化依赖分析算法,与提升下载依赖速度来提升依赖分析的性能。除此之外,性能优化的经典思想是缓存增量,与分布式并发,我们也遵循这个思想。

 

既然生成依赖树的代价大,那我们就将依赖树缓存起来(直接缓存与复用肯定比重新解析一次快),因为在实际开发过程中,修改自己的Java代码的概率远大于修改应用的pom。同时,如一个应用,特别是大库应用,当它的module可能有几十个,或几百个时,则要使用分布式并发构建的方案,将互不依赖的的module启多线程,甚至分配到不同的编译机上去同时构建。

 

因为maven自己也是Java程序,所以为了尽可能降低字节码在运行时转成机器码的开销,我们也考虑了daemon方案。所以总的加速思路如下:

 

image.png 

 

而当以上思路在不断落地过程中,amaven也不断地C/S化了,即amaven不再是一个client,而有了server端,同时将部分复杂的计算从client端移到了server端。而当client越做越薄,server端的功能越来越强大时,server的计算所需要的资源也会越来越多,将这些资源用弹性伸缩来解决,慢慢地amaven云化了。

 

从单个client到C/S化再到云化,这也是一个工具不断进化的趋势所在。

 

1) 依赖树

 

a) 依赖树缓存

 

既然依赖树生成慢,那我们就将这依赖树缓存起来。缓存后,这依赖树可以不用重复生成,而且可以不同人,不同的机器的编译进行共享。使用依赖树缓存后,一次典型的mvn构建的过程如下:

 

image.png 

 

从上图中可以看到amaven-server,它主要负责依赖树缓存的读写性能,保障存储可靠性,及保证缓存的正确性等。

 

b) 依赖树生成算法优化

 

虽在日常研发过程中,修改pom文件的概率较修改应用Java低,但还是有一定概率;同时当pom中依赖了较多SNAPSHOT且SNAPSHOT有更新时,依赖树缓存会失效掉。所以还是会有不少的依赖树重新生成的场景。所以还是有必要来优化依赖树生成算法。

 

在maven2及maven3版本中,包括最新的maven3.8.5中,maven是以深度优先遍历(DF)来生成依赖树的

 

(在社区版本中,目前master上已经支持BF,但还未发release版本:

https://github.com/apache/maven-resolver/blob/master/maven-resolver-impl/src/main/java/org/eclipse/aether/internal/impl/collect/bf/BfDependencyCollector.java)。

 

在遍历过程中通过debug与打日志发现有很多相同的gav或相同的ga会被重复分析很多次,甚至数万次。

 

树的经典遍历算法主要有二种:深度优先算法(DF)及广度优先算法(BF)BF与DF的效率其实差不多的。在有些场景,是DF更快,在有些场景,是BF更快。DF一般用stack数据结构,BF一般用queue数据结构。

 

树的二种遍历算法本没有根本的孰好孰坏之分,但当结合maven的版本仲裁机制考虑会发现有些差异。

 

我们再来看看maven的仲裁机制

 

无论是maven2还是maven3,最主要的仲裁原则就是depth。相同ga或相同gav,谁更deeper,谁就skip。当然仲裁的因素还有scopeprofile等。考虑根据depth来仲裁的机制,按层遍历会更优,因为可以比DF更容易结合按depth仲裁。如下图,如按层来遍历,则红色的二个D1D2就会skip掉,不会重复解析。(注意,实际场景是C的D1还是会被解析,因为它更左)。按层遍历也就是BF。

 

image.png

 

所以小结下,对于树的遍历算法本身来说,DF与BF效率是差不多的。但对于maven3.5.0的依赖树生成逻辑来说,是因为在BF中可以先加上按depth仲裁逻辑,才会比DF快。

 

即算法优化的思路是:“提前修枝”。之前maven3的逻辑是先生成依赖树再版本仲裁,而优化后是边生成依赖树边仲裁。就好比一个树苗,要边生长边修枝,而如果等它长成了参天大树后则修枝要累死人。

 

image.png

c) 依赖下载优化

 

maven在编译过程中,会解析pom,然后不断下载直接依赖与间接依赖到本地。一般本地目录是.m2。对一线研发来说,本地的.m2不太会去删除,所以除非有大的重构,每次编译只有少量的依赖会下载。

 

但对于CICD平台来说,因为编译机一般不是独占的,而是多应用间共享的,所以为了应用间不相互影响,每次编译后可能会删除掉.m2目录。这样,在CICD平台要考虑.m2的隔离,及当.m2清理后要下载大量依赖包的场景。

 

而依赖包的下载,是需要经过网络,所以当一次编译,如要下载上千个依赖,那构建耗时大部分是在下载包,即瓶颈是下载。

 

增大下载并发数

 

依赖包是从maven仓库下载。maven3.5.0在编译时默认是启了5个线程下载。我们可以通过aether.connector.basic.threads来设置更多的线程如20个来下载,但这要求maven仓库要能撑得住翻倍的并发流量。所以我们对maven仓库进行了架构升级,根据包不同的文件大小区间使用了本地硬盘缓存,redis缓存等包文件多级存储来加快包的下载。

 

下表是对热点应用A用不同的下载线程数来下载5000多个依赖得到的下载耗时结果比较:

 

image.png

 

在amaven中我们加了对下载耗时的统计报告,包括下载多少个依赖,下载线程是多少,下载耗时是多少,方便大家进行性能分析。如下图:

 

image.png 

 

同时为了减少网络开销,我们还采用了在编译机本地建立了mirror机制。

 

本地mirror

 

在CI/CD平台构建时为避免重复下载同一个依赖文件架构可能是这样的

 

image.png

架构1.0共享.m2

 

这架构会有依赖包的准确性问题

 

在一个node上会编译很多应用而每个应用编译时指定的maven仓库可能不一样如果volume同一个.m2目录当应用A下载从仓库a下载了maven-compiler-plugin:3.8.1后应用B它指定了从仓库b下载依赖但当它编译时发现.m2目录已经有maven-compiler-plugin:3.8.1了就不会下载了当仓库a与仓库b中maven-compiler-plugin:3.8.1的文件的checksum不同时就会让应用B在构建或运行时出现问题


更多精彩内容,欢迎观看:

《Java应用提速(速度与激情)》——一、maven构建提速(下)https://developer.aliyun.com/article/1223854?groupCode=java

相关文章
|
28天前
|
存储 监控 安全
单位网络监控软件:Java 技术驱动的高效网络监管体系构建
在数字化办公时代,构建基于Java技术的单位网络监控软件至关重要。该软件能精准监管单位网络活动,保障信息安全,提升工作效率。通过网络流量监测、访问控制及连接状态监控等模块,实现高效网络监管,确保网络稳定、安全、高效运行。
52 11
|
21天前
|
安全 算法 Java
Java CAS原理和应用场景大揭秘:你掌握了吗?
CAS(Compare and Swap)是一种乐观锁机制,通过硬件指令实现原子操作,确保多线程环境下对共享变量的安全访问。它避免了传统互斥锁的性能开销和线程阻塞问题。CAS操作包含三个步骤:获取期望值、比较当前值与期望值是否相等、若相等则更新为新值。CAS广泛应用于高并发场景,如数据库事务、分布式锁、无锁数据结构等,但需注意ABA问题。Java中常用`java.util.concurrent.atomic`包下的类支持CAS操作。
56 2
|
2月前
|
XML Java 测试技术
从零开始学 Maven:简化 Java 项目的构建与管理
Maven 是一个由 Apache 软件基金会开发的项目管理和构建自动化工具。它主要用在 Java 项目中,但也可以用于其他类型的项目。
70 1
从零开始学 Maven:简化 Java 项目的构建与管理
|
2月前
|
缓存 Java 开发者
Java多线程并发编程:同步机制与实践应用
本文深入探讨Java多线程中的同步机制,分析了多线程并发带来的数据不一致等问题,详细介绍了`synchronized`关键字、`ReentrantLock`显式锁及`ReentrantReadWriteLock`读写锁的应用,结合代码示例展示了如何有效解决竞态条件,提升程序性能与稳定性。
202 6
|
1月前
|
监控 Java 数据库连接
Java线程管理:守护线程与用户线程的区分与应用
在Java多线程编程中,线程可以分为守护线程(Daemon Thread)和用户线程(User Thread)。这两种线程在行为和用途上有着明显的区别,了解它们的差异对于编写高效、稳定的并发程序至关重要。
43 2
|
2月前
|
关系型数据库 MySQL Java
MySQL索引优化与Java应用实践
【11月更文挑战第25天】在大数据量和高并发的业务场景下,MySQL数据库的索引优化是提升查询性能的关键。本文将深入探讨MySQL索引的多种类型、优化策略及其在Java应用中的实践,通过历史背景、业务场景、底层原理的介绍,并结合Java示例代码,帮助Java架构师更好地理解并应用这些技术。
65 2
|
8天前
|
监控 Java
java异步判断线程池所有任务是否执行完
通过上述步骤,您可以在Java中实现异步判断线程池所有任务是否执行完毕。这种方法使用了 `CompletionService`来监控任务的完成情况,并通过一个独立线程异步检查所有任务的执行状态。这种设计不仅简洁高效,还能确保在大量任务处理时程序的稳定性和可维护性。希望本文能为您的开发工作提供实用的指导和帮助。
48 17
|
19天前
|
Java
Java—多线程实现生产消费者
本文介绍了多线程实现生产消费者模式的三个版本。Version1包含四个类:`Producer`(生产者)、`Consumer`(消费者)、`Resource`(公共资源)和`TestMain`(测试类)。通过`synchronized`和`wait/notify`机制控制线程同步,但存在多个生产者或消费者时可能出现多次生产和消费的问题。 Version2将`if`改为`while`,解决了多次生产和消费的问题,但仍可能因`notify()`随机唤醒线程而导致死锁。因此,引入了`notifyAll()`来唤醒所有等待线程,但这会带来性能问题。
Java—多线程实现生产消费者
|
4天前
|
缓存 安全 算法
Java 多线程 面试题
Java 多线程 相关基础面试题
|
21天前
|
安全 Java Kotlin
Java多线程——synchronized、volatile 保障可见性
Java多线程中,`synchronized` 和 `volatile` 关键字用于保障可见性。`synchronized` 保证原子性、可见性和有序性,通过锁机制确保线程安全;`volatile` 仅保证可见性和有序性,不保证原子性。代码示例展示了如何使用 `synchronized` 和 `volatile` 解决主线程无法感知子线程修改共享变量的问题。总结:`volatile` 确保不同线程对共享变量操作的可见性,使一个线程修改后,其他线程能立即看到最新值。