如何打造一个高可用多租户的企业级Maven私有仓库服务

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介:

为什么要打造多租户的企业级Maven私有仓库服务?

在Java的世界中,我们通常使用Maven的依赖体系来管理构件(artifact,又称为二方库或三方库)的依赖。Maven仓库用于存储这些构件。一般的远程仓库(比如Maven Central)只提供下载功能。而用户想要管理自己的私有二方库,就只能搭建Maven私服。常用的Maven私服软件有Nexus和Artifactory等。Maven私服是很多企业都需要的功能。

如今云服务越来越深入人心,用户不仅纷纷把自身的服务发布到云端,甚至也会使用云服务来管理自己的整个研发流程。而如果有一个企业级的Maven私有仓库服务,用户只需要简单的开通服务,就可开箱即用,无需自己搭建,免去了维护的烦恼。

现有Maven私库软件的问题

打造这样的服务首先可能会考虑借助已有的一些Maven私库解决方案进行改造。Nexus和Artifactory的开源版虽然支持多租户,但由于其缺乏高可用特性,无法进行水平拓展,单节点的稳定性达不到要求。Nexus和Artifactory的商业版本具有高可用特性,但单集群支持的用户数始终有上限。

如下是Nexus的商业版本的高可用架构:

image

图片来源https://help.sonatype.com/repomanager3/high-availability---introduction

虽然其商业版本支持高可用,但仍具有以下问题:

  1. 商业版本按照用户数和使用时间收费,花费较大;
  2. 每个节点是有状态的,通过inter-node replication的方式进行状态同步,扩缩容有限制;
  3. 单个节点支持的仓库数量是有性能限制的,超过限制后需要对集群对sharding处理,进一步增加系统的复杂度。

Artifactory的商业版也具有类似的问题。

高可用的Maven私库服务的理想架构

既然现有的软件无法满足要求,那么只有通过自研的方式来自己实现一套高可用的私有仓库管理系统了。一个理想中的私有仓库管理系统应该是这样子的。

image

  1. 每个节点都实现了标准的Maven仓库服务规范,他们彼此之间是无状态的,通过负载均衡向外暴露服务,这样进行扩缩容会更加的平滑,便于支撑起海量的服务;
  2. 使用对象存储服务作为构建的存储仓库,比如阿里云的OSS。这样所有节点都可以共用存储,无需担心容量及浏览问题,有效的解决IO瓶颈;
  3. 私有仓库的元数据都存放在于应用无关的数据库中,而索引信息则存储在Elastic Search中,数据库和Elastic Search都进行了集群化高可用配置。

实现标准的Maven仓库服务规范

抛开仓库管理、用户及权限管理、系统管理等功能来说,一个最小可用的Maven仓库服务仅需要满足支持Maven客户端进行上传和下载的功能。也就是说私有仓库服务暴露的http URL需要满足一定的布局,具体可参见Repository Layout - Final一文。首先需要理解两个概念。

Maven依赖

Maven依赖是我们在构建项目时使用到的构件(artifact),也就是常说的二方库和三方库。比如我们项目想使用fastjson组件时,需要在项目中的pom.xml文件中加入如下依赖:

<dependency>
  <groupId>com.alibaba</groupId>
  <artifactId>fastjson</artifactId>
  <version>1.2.47</version>
</dependency>

如上所示,在Maven世界中确定一个构件需要三个参数:groupId,artifactId,version。这三个参数构成了Maven世界中的坐标。

主构件和次要构件

其实除了这三个参数外,还有另外两个参数。第一个是packaging。该参数定义了Maven项目的打包方式,可能的值有pom, jar, maven-plugin, ejb, war, ear, rar, par等,默认值为jar,所以在上述的依赖中并不需要填写packaging值。第二个是classifier。classifier用来扩充构件内容。它可以是任意字符串,经典的两个值为javadoc和sources。比如你访问http://maven.aliyun.com/nexus/service/local/repositories/central/content/com/alibaba/fastjson/1.2.47/,返回的内容中除了fastjson-1.2.47.jar还有fastjson-1.2.47-sources.jar和fastjson-1.2.47-javadoc.jar文件。fastjson-1.2.47.jar被称为主构件(Primary Artifacts),而定义了classifier的构件被称为次要构件(Secondary Artifacts)。

如果想获取次要构件可以这样写。

<dependency>
  <groupId>com.alibaba</groupId>
  <artifactId>fastjson</artifactId>
  <version>1.2.47</version>
  <classifier>sources</classifier>
</dependency>

其实Maven仓库主要就是用来存储管理这些构件。Maven和Gradle之类的客户端访问Maven仓库时,进行上传和下载构件时要求仓库URL满足一定的布局。

仓库URL布局

当上传或下载依赖时,Maven仓库的URL布局为:

/$groupId[0]/../$groupId[n]/$artifactId/$version/$artifactId-$version.$extension

如果classifier不为空的话(也就是说该构件为次要构件),则URL布局为:

$groupId[0]/../$groupId[n]/$artifactId/$version/$artifactId-$version-classifier.$extension

在这里会把groupId依据“.”分割为目录。比如com.alibaba会变为com/alibaba。fastjson构件的jar的仓库地址为:

/com/alibaba/fastjson/1.2.47/fastjson-1.2.47.jar

而fastjson的次要构件javadoc的仓库地址为:

/com/alibaba/fastjson/1.2.47/fastjson-1.2.47-javadoc.jar

每个主构件都应该有一个POM文件与之对应:

/$groupId[0]/../${groupId[n]/$artifactId/$version/$artifactId-$version.pom

次要构件则无需单独的POM文件,它会引用主构件的POM文件。

Maven会为每个构件(包括pom文件)生成md5和sha1校验文件,放置在同级目录下。比如fastjson-1.2.47.jar的校验文件为fastjson-1.2.47.jar.sh1和fastjson-1.2.47.jar.md5。

只要实现了这样的URL布局就可以满足一个最小化的maven仓库需要具备的功能。

后端对象存储服务化改造

根据日常的统计来看,Maven仓库服务的下载数量远远大于上传数量。为了提供更好、更快的服务,我们可以对下载进行一系列的优化。优化以前下载构件的流程是这样的。

image

从上图中可以看出,当下载构件时,仓库服务需要先从对象存储服务下载资源,然后再转发给客户端。整个过程不仅耗时,而且会对仓库服务节点的性能造成影响。经过仔细分析以后,我们发现其实仓库服务无需从对象存储服务下载构件,只需要收到客户端的请求后,给客户端返回一个302状态码,并生成一个预先签名的对象存储服务下载链接。这样客户端就可以直接通过对象存储服务下载所需的构件。

image

新的实现方式无需仓库服务和对象存储服务进行数据流的交互,IO压力都交给了更专业的对象存储服务,下载速度可以提高数倍。

除此之外,还可以进行进一步的优化,即在对象存储服务之前加上一层CDN服务,这样可以保证不同的地区的客户端的下载体验都是一致的。

最后

目前这套架构已经替换了maven.aliyun.com,现在maven.aliyun.com运行的如丝般平滑。如果你需要使用可以自行上传下载的maven私有仓库服务,可以访问我们的云效版

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
3月前
|
敏捷开发 Java 持续交付
阿里云云效产品使用合集之maven仓库是否可以代替自建的Nexus
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
4月前
|
Java Linux Maven
Maven 仓库
Maven仓库管理构件(如JARs):本地仓库在首次执行时创建,默认位于`%USER_HOME%/.m2/repository/`;远程仓库包括中央仓库,存放大量开源Java构件,可在线浏览&lt;http://search.maven.org/&gt;。若本地缺失构件,Maven会从远程下载至本地。可通过settings.xml配置本地仓库路径。
|
1月前
|
XML 安全 Java
【Maven】依赖管理,Maven仓库,Maven核心功能
【Maven】依赖管理,Maven仓库,Maven核心功能
528 3
|
3月前
|
敏捷开发 JavaScript Java
阿里云云效产品使用合集之如何进行Maven私有仓库迁移
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
4月前
|
Java Maven
maven开源仓库
maven开源仓库
116 6
|
4月前
|
Java Linux Maven
Maven 仓库
Maven仓库管理构件,包括依赖和插件。有本地、中央和远程三种类型。本地仓库在首次运行时创建,默认在用户目录的`.m2/repository`。Maven首先查找本地仓库,若无则从远程仓库(如中央仓库)下载。中央仓库包含大量开源Java构件,可在线浏览于http://search.maven.org/。
|
5月前
|
Java Linux Maven
Maven 仓库
Maven仓库管理构件,如JARs,分为本地、中央和远程。本地仓库在首次运行时于用户目录的`.m2/repository`创建,默认位置可修改`settings.xml`。中央仓库是社区维护的,包含大量开源Java构件,可通过http://search.maven.org搜索。当本地缺失依赖时,Maven会从远程仓库下载到本地。
|
13天前
|
Java Maven
maven项目的pom.xml文件常用标签使用介绍
第四届人文,智慧教育与服务管理国际学术会议(HWESM 2025) 2025 4th International Conference on Humanities, Wisdom Education and Service Management
64 8
|
11天前
|
Java 应用服务中间件 Maven
Maven的三种项目打包方式——pom,jar,war的区别
Maven 提供了多种打包方式,分别适用于不同类型的项目。pom 用于父项目或聚合项目,便于项目的结构和依赖管理;jar 用于Java类库或可执行的Java应用程序;war 则专用于Java Web应用程序的部署。理解这些打包方式的用途和特点,可以帮助开发者更好地配置和管理Maven项目,确保构建和部署过程的顺利进行。无论是单模块项目还是多模块项目,选择合适的打包方式对于项目的成功至关重要。
30 3
|
1月前
|
Java 关系型数据库 MySQL
Maven——创建 Spring Boot项目
Maven 是一个项目管理工具,通过配置 `pom.xml` 文件自动获取所需的 jar 包,简化了项目的构建和管理过程。其核心功能包括项目构建和依赖管理,支持创建、编译、测试、打包和发布项目。Maven 仓库分为本地仓库和远程仓库,远程仓库包括中央仓库、私服和其他公共库。此外,文档还介绍了如何创建第一个 SpringBoot 项目并实现简单的 HTTP 请求响应。
121 1
Maven——创建 Spring Boot项目

推荐镜像

更多