Harbor仓库镜像扫描原理-阿里云开发者社区

开发者社区> 技术小能手> 正文

Harbor仓库镜像扫描原理

简介:
+关注继续查看

harbor仓库中的镜像扫描这个功能,看似很高大上,其实等你了解了它的底层原理与流程,你就会发现就是做了那么一件事而已,用通俗的一句话概括,就是找到每个镜像文件系统中已经安装的软件包与版本,然后跟官方系统公布的信息比对,官方已经给出了在哪个系统版本上哪个软件版本有哪些漏洞,比如Debian 7系统上,nginx 1.12.1有哪些CVE漏洞,通过对逐个安装的软件包比对,就能知道当前这个镜像一共有多少CVE。当然,如果你是解压版的,那就没啥说的,这个跟windows类似,系统无法在控制面板识别。下面就harbor的具体流程进行简单介绍,让你对这个功能了如指掌。

在了解镜像扫描之前,这里先简单说下镜像的概念,镜像就是由许多Layer层组成的文件系统,重要的是每个镜像有一个manifest,这个东西跟springboot中的一个概念,就是文件清单的意思。一个镜像是由许多Layer组成,总需要这个manifest文件来记录下到底由哪几个层联合组成的。要扫描分析一个镜像,首先你就必须获取到这个镜像的manifest文件,通过manifest文件获取到镜像所有的Layer的地址digest,digest在docker镜像存储系统中代表的是一个地址,类似操作系统中的一个内存地址概念,通过这个地址,可以找到文件的内容,这种可寻址的设计是v2版本的重大改变。在docker hub储存系统中,所有文件都是有地址的,这个digest就是由某种高效的sha算法通过对文件内容计算出来的。

上图中虚线框中的模块是harbor自身功能,Clair是coreos开源的一个系统,镜像扫描分析工作主要由Clair完成,它具体的结构在下面再分析,这里先侧重分析harbor这块流程。箭头方向大致描述的是请求方向,系统之间交互可能产生多次请求。

1.UI向Job发起镜像扫描请求,参数中包含了仓库名称以及tag

2.Job收到请求之后,向registry发起一个Head请求(/v2/nginx/manifest/v1.12.1),判断当前镜像的manifest是否存在,取出当前manifest的digest,这个digest是存放在响应头中的Docker-Content-Digest。

3.Job把第2步获取到的digest以及仓库名、tag作为一条记录插入job表中,job的状态为pending。

这个时候Job系统则会新建一个扫描任务的job进行调度,这里则涉及到一个状态机处理流程。

4.Job系统通过manifest文件获取镜像的所有Layer digest,针对每一层,封装一个ClairLayer参数对象,然后根据层的数量,循环请求Clair系统,ClairLayer参数结构如下:

Name:    sha256:7d99455a045a6c89c0dbee6e1fe659eb83bd3a19e171606bc0fd10eb0e34a7dc
Headers: tokenHeader,
Format:  "Docker",
Path:    http://registry:5000/v2/nginx/blobs/7d99455a045a6c89c0dbee6e1fe659eb83bd3a19e171606bc0fd10eb0e34a7dc
ParentName: a55bba68cd4925f13c34562c891c8c0b5d446c7e3d65bf06a360e81b993902e1

5.Clair系统收到请求之后,根据ParentName首先校验父Layer是否存在,不存在则报错。

下面详细讲解Clair漏洞分析流程。

1.下载镜像层文件

携带必要的headers发起对path的Get请求,得到的则是一个归档文件,然后进行解压。

2.探测镜像操作系统

遍历解压后的文件目录,探测操作系统文件路径。 首先要了解各Linux发行版的一些基础文件,比如系统版本、安装的软件包版本记录等文件。

centos:etc/os-release,usr/lib/os-release

查看文件/etc/os-release

NAME="CentOS Linux"
VERSION="7 (Core)"
ID="centos"
ID_LIKE="rhel fedora"
VERSION_ID="7"
PRETTY_NAME="CentOS Linux 7 (Core)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:centos:centos:7"
HOME_URL="https://www.centos.org/"
BUG_REPORT_URL="https://bugs.centos.org/"

CENTOS_MANTISBT_PROJECT="CentOS-7"
CENTOS_MANTISBT_PROJECT_VERSION="7"
REDHAT_SUPPORT_PRODUCT="centos"
REDHAT_SUPPORT_PRODUCT_VERSION="7"

clair逐行解析该文件,提取ID以及VERSION_ID字段,最终把centos:7作为clair中的一个namespace概念。

2.探测镜像已安装的软件包

上一步已经探测到了操作系统,自然可以知道系统的软件管理包是rpm还是dpkg。

debian, ubuntu : dpkg
centos, rhel, fedora, amzn, ol, oracle : rpm

centos系统的软件管理包是rpm,而debain系统的软件管理是dpkg。

rpm:var/lib/rpm/Packages
dpkg:var/lib/dpkg/status
apk:lib/apk/db/installed

比如debian系统,从文件/var/lib/dpkg/status文件则可以探测到当前系统安装了哪些版本的软件。

Package: sed
Essential: yes
Status: install ok installed
Priority: required
Section: utils
Installed-Size: 799
Maintainer: Clint Adams <clint@debian.org>
Architecture: amd64
Multi-Arch: foreign
Version: 4.4-1
Pre-Depends: libc6 (>= 2.14), libselinux1 (>= 1.32)
Description: GNU stream editor for filtering/transforming text
 sed reads the specified files or the standard input if no
 files are specified, makes editing changes according to a
 list of commands, and writes the results to the standard
 output.
Homepage: https://www.gnu.org/software/sed/

Package: libsmartcols1
Status: install ok installed
Priority: required
Section: libs
Installed-Size: 257
Maintainer: Debian util-linux Maintainers <ah-util-linux@debian.org>
Architecture: amd64
Multi-Arch: same
Source: util-linux
Version: 2.29.2-1+deb9u1
Depends: libc6 (>= 2.17)
Description: smart column output alignment library
 This smart column output alignment library is used by fdisk utilities.

逐行解析文件,提取Package以及Version字段,最终获取 libsmartcols1 2.29-1+deb9u1以及sed等

3.保存信息

把上面探测到的系统版本、以及系统上安装的各种软件包版本都存入数据库。Clair系统已经获取了各linux版本操作系统软件版本,以及对应软件版本存在的CVE。官方公布了某个软件在某个版本修复了哪个CVE,Clair只需要将当前镜像中的软件的版本与官方公布的版本进行比较。比如官方维护的CVE信息中公布了nginx 1.13.1修复了漏洞CVE-2015-10203,那么当前镜像中包含的版本为1.12.1的nginx必然存在漏洞CVE-2015-10203,这些版本比较都是基于同一个版本的操作系统之上比较的。

Harbor的Job系统发送完最后一层的请求之后,则会发起一个CVE分析结果的请求查询,生成一个扫描结果的概览保存在数据库中,主要是记录当前镜像发现了高风险漏洞多少个,中度风险多少个等。同时把job表中的状态设置为finished,如果请求Clair发生任何错误,则会把job记录设置为error。harbor页面具体的漏洞详细数据展示,还是通过UI系统调用Clair系统实时查询。

本文来自云栖社区合作伙伴“开源中国”

本文作者:kingfsen

原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Docker-配置连接多个镜像仓库
  之前介绍了如何使用docker连接私有镜像仓库,最近碰到一个问题,需要使用多个不同的镜像仓库,具体做法如下: 如果有按照我之前那一篇操作对【/usr/lib/systemd/system/docker.service】文件做了修改的话,需要先还原。
1752 0
Maven之阿里云镜像仓库配置
Maven之阿里云镜像仓库配置方式一:全局配置可以添加阿里云的镜像到maven的setting.xml配置中,这样就不需要每次在pom中,添加镜像仓库的配置,在mirrors节点下面添加子节点: nexus-aliyuncentralNexus aliyunhttp://maven.
23739 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4615 0
阿里云Kubernetes容器服务支持免密拉取私有镜像仓库
阿里云容器服务已经正式支持免密拉取ACR私有镜像,用户无需在kubernetes集群中为自己的ACR私有镜像配置ImagePullSecrets,拉取ACR私有镜像从未如此简单和轻松。
6018 0
Maven国内可用下载速度快的仓库镜像
码笔记分享国内可用的Maven仓库,来自阿里云的Maven中央仓库,国内可用下载速度超快的仓库镜像: 阿里云Maven国内可用仓库 Maven是很流行的项目管理工具,但是由于国外的仓库经常连接不上,即便是连接上,下载速度也很慢。
21085 0
Kubernetes-通过Rancher从Harbor私有仓库拉取镜像
引言   前一篇文章详细描述了如何使用rancher搭建Kubernetes高可用集群,集群搭建好了后,我们就需要开始部署应用了,那么如何从私有镜像仓库拉取镜像呢? 原理   Harbor使用了基于角色的访问控制策略,正常情况下我们从Harbor中...
5857 0
使用Docker镜像和仓库
使用Docker镜像和仓库
1540 0
[Maven实战](6)仓库(本地仓库,远程仓库,镜像)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SunnyYoona/article/details/50587876 1. 简介 maven可以在某个位置统一存储所有maven项目共享的构件,这个统一的位置就是仓库。
1358 0
利用临时用户名和密码登录容器镜像仓库
利用临时用户名和密码登录容器镜像仓库
1693 0
+关注
技术小能手
云栖运营小编~
5965
文章
9
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载