在Docker Compose上使用GPU运行TensorFlow

简介: 容器化和AI是目前开发的大趋势。理想情况下,容器化可以将环境无缝迁移,将配置环境的成本无限降低:但是在容器中配置CUDA并运行TensorFlow一向是个难题。对于初学者以及没有深度学习工作站的用户,AWS和Azure推出了带独立显卡的云服务:但是按需实例价格不便宜,竞价式实例价格公道然而虚拟机不能重启,导致不能按需挂载硬盘并保存工作状态,用户需要编写大量代码时刻对虚拟机进行监控并对结果进行异地保存。Deep Systems对这个问题进行了研究并给出了很好的建议。用户首先需要配置 CUDA:Deep Systems推荐使用runtime 安装,以免在升级后污染依赖环境。安装 Dock

容器化和AI是目前开发的大趋势。理想情况下,容器化可以将环境无缝迁移,将配置环境的成本无限降低:但是在容器中配置CUDA并运行TensorFlow一向是个难题。对于初学者以及没有深度学习工作站的用户,AWS和Azure推出了带独立显卡的云服务:但是按需实例价格不便宜,竞价式实例价格公道然而虚拟机不能重启,导致不能按需挂载硬盘并保存工作状态,用户需要编写大量代码时刻对虚拟机进行监控并对结果进行异地保存。Deep Systems对这个问题进行了研究并给出了很好的建议。

用户首先需要配置 CUDA:Deep Systems推荐使用runtime 安装,以免在升级后污染依赖环境。

安装 Docker:一行命令就可以解决这个问题。curl -sSL get.docker。com/ | sh

安装 Nvidia Docker:Nvidia对Docker有良好的支持,可以方便地配置GPU穿透,而且不必再担心驱动版本不匹配的问题。

wget -P /tmp github。com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
sudo dpkg -i /tmp/nvidia-docker*.deb
安装后的调用方法是:nvidia-docker run --rm nvidia/cuda nvidia-smi

安装 Docker Compose:Docker Compose可以提供很多方便的功能,即使只有一个容器也推荐使用。

curl -L github。com/docker/compose/releases/download/1.15.0/docker-compose-uname -s-uname -m > /usr/local/bin/docker-compose
chmod +x /usr/local/bin/docker-compose
安装 Nvidia Docker Compose:这个小脚本可以将Nvidia Docker和Docker Compose连接起来。

使用pip install nvidia-docker-compose 安装后,即可使用nvidia-docker-compose 命令直接调用。

加入别名:nvidia-docker-compose 比较难敲,所以配置下列别名:

alias doc='nvidia-docker-compose'
alias docl='doc logs -f --tail=100'

最后,在docker-compose.yml 写入下列内容:

version: '3'
services:
tf:
image: gcr.io/tensorflow/tensorflow:latest-gpu
ports:

  • 8888:8888

volumes:

  • .:/notebooks

大功告成!doc up 会启动容器,自带TensorFlow Jupiter。

Deep Systems已经将这套系统投入生产。

对于AWS的竞价实例,由于竞价实例不能重启,而且不能保存状态,情况略微复杂一些:有几种聪明的解决方式。

建立一个数据卷,启动时手工挂载。优点是稳定;缺点是每次启动游戏购买平台时都必须人工操作,而且数据卷外的所有操作都会丢失。

使用Docker,在启动后挂载一个数据卷,或者按本文方法在启动后建立Docker,直接在里面进行操作。优点是易于理解、工具成熟,缺点是有点麻烦,而且除非按本文方法,否则没有真正解决数据集外操作全部丢失的问题。

使用ec2-spotter,准备一个配置好的数据卷,在启动时直接将系统卷替换:缺点是对于每个区域都需要人工修改所需镜像。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
2月前
|
人工智能 前端开发 Docker
从本地到云端:用 Docker Compose 与 Offload 构建可扩展 AI 智能体
在 AI 智能体开发中,开发者常面临本地调试与云端部署的矛盾。本文介绍如何通过 Docker Compose 与 Docker Offload 解决这一难题,实现从本地快速迭代到云端高效扩容的全流程。内容涵盖多服务协同、容器化配置、GPU 支持及实战案例,助你构建高效、一致的 AI 智能体开发环境。
329 1
从本地到云端:用 Docker Compose 与 Offload 构建可扩展 AI 智能体
|
2月前
|
运维 数据可视化 开发者
2025年 三个 Docker Compose 可视化管理器测评
本文对比了三款主流的 Docker Compose 可视化管理工具。随着 Docker 的普及,Compose 已成为多容器应用部署的标准,但 YAML 配置复杂、协作困难等问题也日益突出。三款工具各有侧重:Docker Desktop 适合个人本地开发,Portainer 适合小团队运维管理,而 Websoft9 则通过 GitOps 实现了强大的版本控制与团队协作能力。文章从可视化编辑、部署便捷性、版本管理等方面进行评测,为不同使用场景提供了推荐方案,展望了未来 Compose 管理向 GitOps 深度融合的发展趋势。
363 1
2025年 三个 Docker Compose 可视化管理器测评
|
数据可视化 开发工具 git
GitOps 驱动的 Docker Compose 可视工具化来了,图形化编辑器上玩转容器编排
Docker Compose 简化了多容器应用的部署,但随着应用复杂度上升,文本配置方式逐渐暴露出维护难、协作效率低等问题。基于 GitOps 的可视化 Docker Compose 工具应运而生,通过图形界面降低使用门槛,提升配置准确性和团队协作效率。结合 GitOps,实现配置变更的版本追踪、自动化部署与环境一致性,为多容器应用管理提供高效、安全的解决方案。
|
4月前
|
NoSQL Redis Docker
使用Docker Compose工具进行容器编排的教程
以上就是使用Docker Compose进行容器编排的基础操作。这能帮你更有效地在本地或者在服务器上部署和管理多容器应用。
454 11
|
4月前
|
NoSQL 安全 Redis
Docker Compose :从入门到企业级部署
Docker Compose 是用于定义和运行多容器应用的工具,支持服务、网络和卷三大核心要素。通过简洁的 YAML 文件,可实现应用的快速部署与管理,适用于开发、测试及生产环境。
369 1
|
5月前
|
Ubuntu 定位技术 TensorFlow
源码编译安装ROCm以运行tensorflow-rocm(适用于Ubuntu 23.04)
总结一番,完成这趟奇妙的技术之旅后,乐趣多多,还能享受 tensorflow-rocm 带来的便利和速度。这趟旅程需要耐心,勇气,以及对技术的热爱。朋友,做好准备,让你的Ubuntu系统展翅高飞吧!
304 9
|
6月前
|
网络协议 Ubuntu Docker
Docker Compose--命令说明
Docker Compose--命令说明
1102 30
|
6月前
|
网络协议 NoSQL Redis
Docker Compose--模板文件
Docker Compose--模板文件
403 29
|
6月前
|
Linux Docker Windows
Docker Compose
Docker Compose
703 29

热门文章

最新文章