利用docker部署深度学习模型的一个最佳实践

简介:

最近团队的模型部署上线终于全面开始用上docker了,这感觉,真香!

讲道理,docker是天然的微服务,确实是能敏捷高效的解决深度学习这一块的几个痛点。

部分神经网络框架比如caffe依赖过重,安装困难。
各种网络模型未做工程化优化,部署困难。
tensorflow等框架对GPU等硬件的占用难以灵活控制。

对于做应用来说,这些问题诸如对GPU的硬件的管理,对复杂依赖的部署,而这些正好就是docker的强项。而python本身表达能力强,可以以很短的代码量达成我们的目的。

部署

具体的部署步骤涉及这几个工具链:

Dockerfile进行模型的镜像部署。
docker-py进行container的启动和关闭。
grpc和进行模型的外部通信。
python的with语句表达模型的加载和资源的释放。
gitlab进行内网的代码分发和版本控制。

整个接口的调用精简成面向对象的调用方式,with语句进入时启动模型,占用GPU,打开rpc调用端口,之后在调用结束后退出模型,释放资源,整个调用过程就简化成如下样子:


with Model_Docker() as sess:
img = cv2.imread('demo.jpg')
r = sess.run(img)
print('result:',r,'type',type(r))

其中Model_Docker是这样的:


class CTPN_Docker(object):

def __init__(self):
self.client = docker.from_env()

def get_container(self,client):
container = client.containers.run(image = DEMO_IMAGE_NAME:TAG,
command = "python server.py",
runtime='nvidia',
environment = ["CUDA_VISIBLE_DEVICES=0"],
ports = {'8888/tcp':'8888'},
detach=True,
auto_remove = True)
return container

def __enter__(self):
self.container = self.get_container(self.client)
for line in self.container.logs(stream=True):
if line.strip().find(b'grpc_server_start') >= 0:
break
return self

def __exit__(self, exc_type, exc_val, exc_tb):
self.container.stop()
print('container has stopped.')

def run(self,img):
assert isinstance(img,np.ndarray), 'img must be a numpy array.'
imgstr = img.tobytes()
shape = json.dumps(img.shape)
stub = ctpn_pb2_grpc.ModelStub(grpc.insecure_channel('localhost:50051'))
response = stub.predict(ctpn_pb2.rect_request(img=imgstr, shape=shape))
return json.loads(response.message)

整个流程是这么个步骤:

init 方法获得docker client。
get_container方法实例化一个container。
with语句进入接口的 enter 方法,负责获取container实例和实例内模型启动结束的flag。
with语句清理接口的 exit 方法,负责实例的关闭。
run方法通过grpc调用docker内模型和返回结果。

docker-py是一个docker的python接口,docker除了cmdline的操作方式,还提供了REST的调用接口,docker-py就是其中一个很人性化的封装,具体使用可见官方文档。

container的实例化中有这几个地方需要注意:

runtime需要用nvidia,与使用nvidia-docker效果一样。
detach是后台模式,与-d效果一样。
auto_remove是自动删除,与--rm效果类似。
environment 来设定CUDA_VISIBLE_DEVICES。
ports 来指定导出端口映射。

除了docker-py调用中的这些技巧,还有如下几个指令在构建过程中值得注意。

1、grpc的编译,这里没啥好说的,和grpc的官方说明文档里一样。

RUN python -m grpc_tools.protoc --python_out=. --grpc_python_out=. -I. mode.proto

2、docker image的构建,有时候构建需要添加--no-cache,避免远程资源更新了,docker构建却没重新。

docker build --no-cache -t name .

3、pip安装的时候需要添加几个参数,-r指定.txt安装,-i指定清华镜像为安装源,--no-cache-dir压缩docker镜像。

RUN pip install -r requirements_docker.txt -i https://pypi.tuna.tsinghua.edu.cn/simple --no-cache-dir

后记

这一轮AI浪潮扑腾到今天,也积累了大量可落地的框架和应用。不过在github欢快的clone代码的时候,一直注意到一些事。和web等领域不同的是,几乎所有模型几乎都是以源代码的形式分发的,很少有工程化的封装,更别说封装成库来部署了。就拿现在我在做的目标检测和文字识别的几个模型来说,yolo、fasterrcnn、ctpn和crnn等都是这样。

当然这也好理解,这些开源作品基本都是大佬在水文章之余写的,而且一个完整的模型包括训练、测试和预测,模型在公开数据集上的训练效果才是关键,工程化的问题并不是最重要的事情,不过我还是想吐槽一下。

比如fasterrcnn中训练数据是写死的,准备好训练集后得通过一个软连接将训练集和训练数据替换掉。这还不是最毒瘤的,较新的ctpn是继承自fasterrcnn,也是采用这种方法.

又比如在导入数据阶段也是各用各的法子,这些做法有往往采用多线程和多进程,结果管理不好,一大堆死线程不说,还经常把cpu跑满,用过的模型中darkflow和east都有这样的问题。

还有在写inference是,还常常遇到需要修改输入输出tensor的情况,在输入端加placeholder,稍微对tensorflow不熟,同时还需要修改一些在预测阶段有所改变的tensor。确实是很不人道。

最后想提一点,这种部署方式除了部署时灵活方便,另外一个额外的好处就是使用jupyter时也方便,在jupyter使用时最常见的问题有两个,一个是需要经常使用set_env去设置CUDA_VISIBLE_DEVICES,另一个是用完了得把notebook关掉,不然jupyter进程会一直占用GPU。


原文发布时间为:2018-09-5

本文作者:丁果

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
3月前
|
应用服务中间件 网络安全 nginx
手把手教你使用 Docker 部署 Nginx 教程
本文详解Nginx核心功能与Docker部署优势,涵盖镜像拉取、容器化部署(快速、挂载、Compose)、HTTPS配置及常见问题处理,助力高效搭建稳定Web服务。
1633 4
|
3月前
|
应用服务中间件 Linux nginx
在虚拟机Docker环境下部署Nginx的步骤。
以上就是在Docker环境下部署Nginx的步骤。需要注意,Docker和Nginix都有很多高级用法和细节需要掌握,以上只是一个基础入门级别的教程。如果你想要更深入地学习和使用它们,请参考官方文档或者其他专业书籍。
196 5
|
4月前
|
存储 Docker Python
docker 部署 sftp
本文介绍SFTP服务的部署与配置,包括users.conf用户配置规则、Docker容器运行命令及上传目录权限说明,重点解析atmoz/sftp镜像的chroot机制与子目录映射,确保用户登录后正确访问/upload目录,并提供Python脚本实现文件上传示例。
448 12
docker 部署 sftp
|
4月前
|
运维 Linux 数据库
基于 Docker 部署 n8n 指南,新手一看就会
本教程详解如何通过 Docker 快速部署开源自动化工具 n8n,适合新手快速上手。内容涵盖官方部署步骤、常见难点及第三方一键部署方案,助你高效搭建自动化工作流平台。
1809 6
|
3月前
|
存储 NoSQL Redis
手把手教你用 Docker 部署 Redis
Redis是高性能内存数据库,支持多种数据结构,适用于缓存、消息队列等场景。本文介绍如何通过Docker快速拉取轩辕镜像并部署Redis,涵盖快速启动、持久化存储及docker-compose配置,助力开发者高效搭建稳定服务。
1212 8
|
3月前
|
存储 搜索推荐 数据库
🚀 RAGFlow Docker 部署全流程教程
RAGFlow是开源的下一代RAG系统,融合向量数据库与大模型,支持全文检索、插件化引擎切换,适用于企业知识库、智能客服等场景。支持Docker一键部署,提供轻量与完整版本,助力高效搭建私有化AI问答平台。
2864 9
|
3月前
|
存储 关系型数据库 MySQL
MySQL Docker 容器化部署全指南
MySQL是一款开源关系型数据库,广泛用于Web及企业应用。Docker容器化部署可解决环境不一致、依赖冲突问题,实现高效、隔离、轻量的MySQL服务运行,支持数据持久化与快速迁移,适用于开发、测试及生产环境。
706 4
|
3月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
4月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
321 0