制作 Python Docker 镜像的最佳实践

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 制作 Python Docker 镜像的最佳实践

概述

📚️Reference:

制作容器镜像的最佳实践

这篇文章是关于制作 Python Docker 容器镜像的最佳实践。(2022 年 12 月更新)

最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性。希望对各位有所帮助。

通用 Docker 容器镜像最佳实践

这里也再次罗列一下对 Python Docker 镜像也适用的一些通用最佳实践。

  • 使用 LABEL maintainer
  • 标记重要端口
  • 设置环境变量
  • 使用非 root 用户运行容器进程
  • 使用 .dockerignore 排除无关文件

Python 镜像推荐设置的环境变量

Python 中推荐的常见环境变量如下:

# 设置环境变量 
ENV PYTHONDONTWRITEBYTECODE 1
ENV PYTHONUNBUFFERED 1
DOCKERFILE
  1. ENV PYTHONDONTWRITEBYTECODE 1: 建议构建 Docker 镜像时一直为 1, 防止 python 将 pyc 文件写入硬盘
  2. ENV PYTHONUNBUFFERED 1: 建议构建 Docker 镜像时一直为 1, 防止 python 缓冲 (buffering) stdout 和 stderr, 以便更容易地进行容器日志记录
  3. ❌不再建议使用 ENV DEBUG 0 环境变量,没必要。

使用非 root 用户运行容器进程

出于安全考虑,推荐运行 Python 程序前,创建 非 root 用户并切换到该用户。

# 创建一个具有明确 UID 的非 root 用户,并增加访问 /app 文件夹的权限。
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser
DOCKERFILE

使用 .dockerignore 排除无关文件

需要排除的无关文件一般如下:

**/__pycache__
**/*venv
**/.classpath
**/.dockerignore
**/.env
**/.git
**/.gitignore
**/.project
**/.settings
**/.toolstarget
**/.vs
**/.vscode
**/*.*proj.user
**/*.dbmdl
**/*.jfm
**/bin
**/charts
**/docker-compose*
**/compose*
**/Dockerfile*
**/node_modules
**/npm-debug.log
**/obj
**/secrets.dev.yaml
**/values.dev.yaml
*.db
.python-version
LICENSE
README.md
.DOCKERIGNORE

这里选择几个说明下:

  1. **/__pycache__: python 缓存目录
  2. **/*venv: Python 虚拟环境目录。很多 Python 开发习惯将虚拟环境目录创建在项目下,一般命名为:.venvvenv
  3. **/.env: Python 环境变量文件
  4. **/.git **/.gitignore: git 相关目录和文件
  5. **/.vscode: 编辑器、IDE 相关目录
  6. **/charts: Helm Chart 相关文件
  7. **/docker-compose*: docker compose 相关文件
  8. *.db: 如果使用 sqllite 的相关数据库文件
  9. .python-version: pyenv 的 .python-version 文件

不建议使用 Alpine 作为 Python 的基础镜像

为什么呢?大多数 Linux 发行版使用 GNU 版本(glibc)的标准 C 库,几乎每个 C 程序都需要这个库,包括 Python。但是 Alpine Linux 使用 musl, Alpine 禁用了 Linux wheel 支持。

理由如下:

  • 缺少大量依赖
  • CPython 语言运行时的相关依赖
  • openssl 相关依赖
  • libffi 相关依赖
  • gcc 相关依赖
  • 数据库驱动相关依赖
  • pip 相关依赖
  • 构建可能更耗时
  • Alpine Linux 使用 musl,一些二进制 wheel 是针对 glibc 编译的,但是 Alpine 禁用了 Linux wheel 支持。现在大多数 Python 包都包括 PyPI 上的二进制 wheel,大大加快了安装时间。但是如果你使用 Alpine Linux,你可能需要编译你使用的每个 Python 包中的所有 C 代码。
  • 基于 Alpine 构建的 Python 镜像反而可能更大
  • 乍一听似乎违反常识,但是仔细一想,因为上面罗列的原因,确实会导致镜像更大的情况。

📚️Reference:

Using Alpine can make Python Docker builds 50× slower (pythonspeed.com)

这里以这个 Demo FastAPI Python 程序 为例,其基于 Alpine 的 Dockerfile 地址是这个:https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.alpine

因为缺少很多依赖,所以在用 pip 安装之前,就需要尽可能全地安装相关依赖:

RUN set -eux \
    && apk add --no-cache --virtual .build-deps build-base \
    openssl-dev libffi-dev gcc musl-dev python3-dev \
    && pip install --upgrade pip setuptools wheel \
    && pip install --upgrade -r /app/requirements.txt \
    && rm -rf /root/.cache/pip
DOCKERFILE

这里也展示一下基于 Alpine 构建完成后的 镜像未压缩大小:

基于 Alpine 的 Python Demo 镜像大小:472 MB

△ 基于 Alpine 的 Python Demo 镜像大小:472 MB; 相比之下,基于 slim 的只有 189 MB

在上面代码的这一步,就占用了太多空间:

🤔 思考 :

可能上面一段可以精简,但是要判断对于哪个 Python 项目,可以精简哪些包,实在是太难了。

+ apk add --no-cache --virtual .build-deps build-base openssl-dev libffi-dev gcc musl-dev python3-dev
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/main/x86_64/APKINDEX.tar.gz
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/community/x86_64/APKINDEX.tar.gz
(1/28) Installing libgcc (12.2.1_git20220924-r4)
(2/28) Installing libstdc++ (12.2.1_git20220924-r4)
(3/28) Installing binutils (2.39-r2)
(4/28) Installing libmagic (5.43-r0)
(5/28) Installing file (5.43-r0)
(6/28) Installing libgomp (12.2.1_git20220924-r4)
(7/28) Installing libatomic (12.2.1_git20220924-r4)
(8/28) Installing gmp (6.2.1-r2)
(9/28) Installing isl25 (0.25-r0)
(10/28) Installing mpfr4 (4.1.0-r0)
(11/28) Installing mpc1 (1.2.1-r1)
(12/28) Installing gcc (12.2.1_git20220924-r4)
(13/28) Installing libstdc++-dev (12.2.1_git20220924-r4)
(14/28) Installing musl-dev (1.2.3-r4)
(15/28) Installing libc-dev (0.7.2-r3)
(16/28) Installing g++ (12.2.1_git20220924-r4)
(17/28) Installing make (4.3-r1)
(18/28) Installing fortify-headers (1.1-r1)
(19/28) Installing patch (2.7.6-r8)
(20/28) Installing build-base (0.5-r3)
(21/28) Installing pkgconf (1.9.3-r0)
(22/28) Installing openssl-dev (3.0.7-r0)
(23/28) Installing linux-headers (5.19.5-r0)
(24/28) Installing libffi-dev (3.4.4-r0)
(25/28) Installing mpdecimal (2.5.1-r1)
(26/28) Installing python3 (3.10.9-r1)
(27/28) Installing python3-dev (3.10.9-r1)
(28/28) Installing .build-deps (20221214.074929)
Executing busybox-1.35.0-r29.trigger
OK: 358 MiB in 65 packages
...
AVRASM

建议使用官方的 python slim 镜像作为基础镜像

继续上面,所以我是建议:使用官方的 python slim 镜像作为基础镜像

镜像库是这个:https://hub.docker.com/_/python

并且使用 python:<version>-slim 作为基础镜像,能用 python:<version>-slim-bullseye 作为基础镜像更好(因为更新,相对就更安全一些).

这个镜像不包含默认标签中的常用包,只包含运行 python 所需的最小包。这个镜像是基于 Debian 的。

使用官方 python slim 的理由还包括:

  • 稳定性
  • 安全升级更及时
  • 依赖更新更及时
  • 依赖更全
  • Python 版本升级更及时
  • 镜像更小

📚️Reference:

The best Docker base image for your Python application (Sep 2022) (pythonspeed.com)

一般情况下,Python 镜像构建不需要使用 " 多阶段构建 "

一般情况下,Python 镜像构建不需要使用 " 多阶段构建 ".

理由如下:

  • Python 没有像 Golang 一样,可以把所有依赖打成一个单一的二进制包
  • Python 也没有像 Java 一样,可以在 JDK 上构建,在 JRE 上运行
  • Python 复杂而散落的依赖关系,在 " 多阶段构建 " 时会增加复杂度

如果有一些特殊情况,可以尝试使用 " 多阶段构建 " 压缩镜像体积:

  • 构建阶段需要安装编译器
  • Python 项目复杂,用到了其他语言代码(如 C/C++/Rust)

pip 小技巧

使用 pip 安装依赖时,可以添加 --no-cache-dir 减少镜像体积:

# 安装 pip 依赖 
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt
DOCKERFILE

Python Dockerfile 最佳实践样例

最后, 就是基于以上最佳实践的完整样例, 也可以在这里找到: https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.slim

FROM python:3.10-slim
LABEL maintainer="cuikaidong@foxmail.com"
EXPOSE 8000
# Keeps Python from generating .pyc files in the container
ENV PYTHONDONTWRITEBYTECODE=1
# Turns off buffering for easier container logging
ENV PYTHONUNBUFFERED=1
# Install pip requirements
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt
WORKDIR /app
COPY . /app
# Creates a non-root user with an explicit UID and adds permission to access the /app folder
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser
CMD ["uvicorn", "shortener_app.main:app", "--host", "0.0.0.0"]
DOCKERFILE

总结

制作 Python Docker 容器镜像的最佳实践。最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性.

最佳实践如下:

  • 推荐 2 个 Python 的环境变量
  • ENV PYTHONDONTWRITEBYTECODE 1
  • ENV PYTHONUNBUFFERED 1
  • 使用非 root 用户运行容器进程
  • 使用 .dockerignore 排除无关文件
  • 不建议使用 Alpine 作为 Python 的基础镜像
  • 建议使用官方的 python slim 镜像作为基础镜像
  • 一般情况下, Python 镜像构建不需要使用 " 多阶段构建 "
  • pip 小技巧: --no-cache-dir

希望对大家有所帮助.

最后也感叹一下, 在云原生时代, python 在分发这块, 特别是镜像构建这块, 确实体验、效率、镜像大小等方面差 golang 太多了。😭😭😭

📚️参考文档

相关实践学习
通过容器镜像仓库与容器服务快速部署spring-hello应用
本教程主要讲述如何将本地Java代码程序上传并在云端以容器化的构建、传输和运行。
Kubernetes极速入门
Kubernetes(K8S)是Google在2014年发布的一个开源项目,用于自动化容器化应用程序的部署、扩展和管理。Kubernetes通常结合docker容器工作,并且整合多个运行着docker容器的主机集群。 本课程从Kubernetes的简介、功能、架构,集群的概念、工具及部署等各个方面进行了详细的讲解及展示,通过对本课程的学习,可以对Kubernetes有一个较为全面的认识,并初步掌握Kubernetes相关的安装部署及使用技巧。本课程由黑马程序员提供。 &nbsp; 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情:&nbsp;https://www.aliyun.com/product/kubernetes
相关文章
|
2月前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
1天前
|
Ubuntu NoSQL 关系型数据库
《docker基础篇:6.本地镜像发布到私有库》包括本地镜像发布到私有库流程、docker regisry是什么、将本地镜像推送到私有库
《docker基础篇:6.本地镜像发布到私有库》包括本地镜像发布到私有库流程、docker regisry是什么、将本地镜像推送到私有库
52 28
|
1月前
|
Docker 容器
将本地的应用程序打包成Docker镜像
将本地的应用程序打包成Docker镜像
|
21天前
|
NoSQL PHP MongoDB
docker push推送自己搭建的镜像
本文详细介绍了如何搭建和复盘两个Web安全挑战环境:人力资源管理系统和邮件管理系统。首先,通过Docker搭建MongoDB和PHP环境,模拟人力资源管理系统的漏洞,包括nosql注入和文件写入等。接着,复盘了如何利用这些漏洞获取flag。邮件管理系统部分,通过目录遍历、文件恢复和字符串比较等技术,逐步绕过验证并最终获取flag。文章提供了详细的步骤和代码示例,适合安全研究人员学习和实践。
44 3
docker push推送自己搭建的镜像
|
17天前
|
人工智能 分布式计算 数据处理
云产品评测:MaxFrame — 分布式Python计算服务的最佳实践与体验
阿里云推出的MaxFrame是一款高性能分布式计算平台,专为大规模数据处理和AI应用设计。它提供了强大的Python编程接口,支持分布式Pandas操作,显著提升数据处理速度(3-5倍)。MaxFrame在大语言模型数据处理中表现出色,具备高效内存管理和任务调度能力。然而,在开通流程、API文档及功能集成度方面仍有改进空间。总体而言,MaxFrame在易用性和计算效率上具有明显优势,但在开放性和社区支持方面有待加强。
44 9
|
25天前
|
Docker 容器
|
1月前
|
数据库 Docker 容器
Docker在现代软件开发中扮演着重要角色,通过Dockerfile自动化构建Docker镜像,实现高效、可重复的构建过程。
Docker在现代软件开发中扮演着重要角色,通过Dockerfile自动化构建Docker镜像,实现高效、可重复的构建过程。Dockerfile定义了构建镜像所需的所有指令,包括基础镜像选择、软件安装、文件复制等,极大提高了开发和部署的灵活性与一致性。掌握Dockerfile的编写,对于提升软件开发效率和环境管理具有重要意义。
60 9
|
1月前
|
缓存 开发者 Python
深入探索Python中的装饰器:原理、应用与最佳实践####
本文作为技术性深度解析文章,旨在揭开Python装饰器背后的神秘面纱,通过剖析其工作原理、多样化的应用场景及实践中的最佳策略,为中高级Python开发者提供一份详尽的指南。不同于常规摘要的概括性介绍,本文摘要将直接以一段精炼的代码示例开篇,随后简要阐述文章的核心价值与读者预期收获,引领读者快速进入装饰器的世界。 ```python # 示例:一个简单的日志记录装饰器 def log_decorator(func): def wrapper(*args, **kwargs): print(f"Calling {func.__name__} with args: {a
42 2
|
1月前
|
存储 缓存 运维
Docker镜像采用分层存储,每层代表镜像的一部分,如基础组件或应用依赖,多层叠加构成完整镜像
Docker镜像采用分层存储,每层代表镜像的一部分,如基础组件或应用依赖,多层叠加构成完整镜像。此机制减少存储占用,提高构建和传输效率。Docker还通过缓存机制提升构建和运行效率,减少重复工作。文章深入解析了Docker镜像分层存储与缓存机制,包括具体实现、管理优化及实际应用案例,帮助读者全面理解其优势与挑战。
52 4
|
2月前
|
开发者 Docker Python
从零开始:使用Docker容器化你的Python Web应用
从零开始:使用Docker容器化你的Python Web应用
57 1