为什么要打造多租户的企业级Maven私有仓库服务?
在Java的世界中,我们通常使用Maven的依赖体系来管理构件(artifact,又称为二方库或三方库)的依赖。Maven仓库用于存储这些构件。一般的远程仓库(比如Maven Central)只提供下载功能。而用户想要管理自己的私有二方库,就只能搭建Maven私服。常用的Maven私服软件有Nexus和Artifactory等。Maven私服是很多企业都需要的功能。
如今云服务越来越深入人心,用户不仅纷纷把自身的服务发布到云端,甚至也会使用云服务来管理自己的整个研发流程。而如果有一个企业级的Maven私有仓库服务,用户只需要简单的开通服务,就可开箱即用,无需自己搭建,免去了维护的烦恼。
现有Maven私库软件的问题
打造这样的服务首先可能会考虑借助已有的一些Maven私库解决方案进行改造。Nexus和Artifactory的开源版虽然支持多租户,但由于其缺乏高可用特性,无法进行水平拓展,单节点的稳定性达不到要求。Nexus和Artifactory的商业版本具有高可用特性,但单集群支持的用户数始终有上限。
如下是Nexus的商业版本的高可用架构:
虽然其商业版本支持高可用,但仍具有以下问题:
- 商业版本按照用户数和使用时间收费,花费较大;
- 每个节点是有状态的,通过inter-node replication的方式进行状态同步,扩缩容有限制;
- 单个节点支持的仓库数量是有性能限制的,超过限制后需要对集群对sharding处理,进一步增加系统的复杂度。
Artifactory的商业版也具有类似的问题。
高可用的Maven私库服务的理想架构
既然现有的软件无法满足要求,那么只有通过自研的方式来自己实现一套高可用的私有仓库管理系统了。一个理想中的私有仓库管理系统应该是这样子的。
- 每个节点都实现了标准的Maven仓库服务规范,他们彼此之间是无状态的,通过负载均衡向外暴露服务,这样进行扩缩容会更加的平滑,便于支撑起海量的服务;
- 使用对象存储服务作为构建的存储仓库,比如阿里云的OSS。这样所有节点都可以共用存储,无需担心容量及浏览问题,有效的解决IO瓶颈;
- 私有仓库的元数据都存放在于应用无关的数据库中,而索引信息则存储在Elastic Search中,数据库和Elastic Search都进行了集群化高可用配置。
实现标准的Maven仓库服务规范
抛开仓库管理、用户及权限管理、系统管理等功能来说,一个最小可用的Maven仓库服务仅需要满足支持Maven客户端进行上传和下载的功能。也就是说私有仓库服务暴露的http URL需要满足一定的布局,具体可参见[Repository Layout - Final] (https://cwiki.apache.org/confluence/display/MAVENOLD/Repository+Layout+-+Final)一文。首先需要理解两个概念。
Maven依赖
Maven依赖是我们在构建项目时使用到的构件(artifact),也就是常说的二方库和三方库。比如我们项目想使用fastjson组件时,需要在项目中的pom.xml文件中加入如下依赖:
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>fastjson</artifactId>
<version>1.2.47</version>
</dependency>
如上所示,在Maven世界中确定一个构件需要三个参数:groupId,artifactId,version。这三个参数构成了Maven世界中的坐标。
主构件和次要构件
其实除了这三个参数外,还有另外两个参数。第一个是packaging。该参数定义了Maven项目的打包方式,可能的值有pom, jar, maven-plugin, ejb, war, ear, rar, par等,默认值为jar,所以在上述的依赖中并不需要填写packaging值。第二个是classifier。classifier用来扩充构件内容。它可以是任意字符串,经典的两个值为javadoc和sources。比如你访问http://maven.aliyun.com/nexus/service/local/repositories/central/content/com/alibaba/fastjson/1.2.47/,返回的内容中除了fastjson-1.2.47.jar还有fastjson-1.2.47-sources.jar和fastjson-1.2.47-javadoc.jar文件。fastjson-1.2.47.jar被称为主构件(Primary Artifacts),而定义了classifier的构件被称为次要构件(Secondary Artifacts)。
如果想获取次要构件可以这样写。
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>fastjson</artifactId>
<version>1.2.47</version>
<classifier>sources</classifier>
</dependency>
其实Maven仓库主要就是用来存储管理这些构件。Maven和Gradle之类的客户端访问Maven仓库时,进行上传和下载构件时要求仓库URL满足一定的布局。
仓库URL布局
当上传或下载依赖时,Maven仓库的URL布局为:
/$groupId[0]/../$groupId[n]/$artifactId/$version/$artifactId-$version.$extension
如果classifier不为空的话(也就是说该构件为次要构件),则URL布局为:
$groupId[0]/../$groupId[n]/$artifactId/$version/$artifactId-$version-classifier.$extension
在这里会把groupId依据“.”分割为目录。比如com.alibaba会变为com/alibaba。fastjson构件的jar的仓库地址为:
/com/alibaba/fastjson/1.2.47/fastjson-1.2.47.jar
而fastjson的次要构件javadoc的仓库地址为:
/com/alibaba/fastjson/1.2.47/fastjson-1.2.47-javadoc.jar
每个主构件都应该有一个POM文件与之对应:
/$groupId[0]/../${groupId[n]/$artifactId/$version/$artifactId-$version.pom
次要构件则无需单独的POM文件,它会引用主构件的POM文件。
Maven会为每个构件(包括pom文件)生成md5和sha1校验文件,放置在同级目录下。比如fastjson-1.2.47.jar的校验文件为fastjson-1.2.47.jar.sh1和fastjson-1.2.47.jar.md5。
只要实现了这样的URL布局就可以满足一个最小化的maven仓库需要具备的功能。
后端对象存储服务化改造
根据日常的统计来看,Maven仓库服务的下载数量远远大于上传数量。为了提供更好、更快的服务,我们可以对下载进行一系列的优化。优化以前下载构件的流程是这样的。
从上图中可以看出,当下载构件时,仓库服务需要先从对象存储服务下载资源,然后再转发给客户端。整个过程不仅耗时,而且会对仓库服务节点的性能造成影响。经过仔细分析以后,我们发现其实仓库服务无需从对象存储服务下载构件,只需要收到客户端的请求后,给客户端返回一个302状态码,并生成一个预先签名的对象存储服务下载链接。这样客户端就可以直接通过对象存储服务下载所需的构件。
新的实现方式无需仓库服务和对象存储服务进行数据流的交互,IO压力都交给了更专业的对象存储服务,下载速度可以提高数倍。
除此之外,还可以进行进一步的优化,即在对象存储服务之前加上一层CDN服务,这样可以保证不同的地区的客户端的下载体验都是一致的。
最后
目前这套架构已经替换了maven.aliyun.com,现在maven.aliyun.com运行的如丝般平滑。如果你需要使用可以自行上传下载的maven私有仓库服务,可以访问我们的云效版。