开发者社区> 【方向】> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

使用TensorFlow,GPU和Docker容器进行深度学习

简介: 数据科学家使用GPU来提高TensorFlow的计算速度,但GPU价格昂贵,也需要对其所占用的资源进行认真的管理。本文将带你来一起解决这一问题。
+关注继续查看

在过去的几个月中,我和多个企业的数据科学团队进行了多次合作,也看到越来越多的机器学习和深度学习框架被广泛应用到实际生活中。

与大数据分析和数据科学中的其他用例一样,这些团队希望在BlueData EPIC软件平台上的Docker容器中运行他们最喜欢的深度学习框架和工具。因此,我的一部分工作就是尝试使用这些新工具,确保在我们的平台上能够运行,并且能够帮助这些团队开发出可以解决一些问题的新的功能。

TensorFlow是深度学习和机器学习最流行的开源框架之一。TensorFlow最初是由Google研究团队开发的并致力于解决深度神经网络的机器学习研究。另外,TensorFlow也适用于许多其他应用场景:图像识别,自由文本数据的自然语言处理以及威胁检测和监视等。

TensorFlow是一个用于对一系列任务进行机器学习的开源软件库,它是一个构建和训练神经网络来检测、解读模式和相关性的系统,它与人类学习和推理相似(但不一样)。”——维基百科

TensorFlow可以在各种异构系统(包括CPUGPU)上对计算资源进行合理分配。与我合作过的几个数据科学团队使用GPU来提高TensorFlow的计算速度,但GPU价格昂贵,他们需要对TensorFlow所占用的资源进行认真的管理

部署TensorFlow的注意事项

以下是部署数据科学应用程序和TensorFlow时的一些注意事项(尤其是在企业大规模部署时更应该注意):

1.如何对部署的复杂性进行管理,例如在OS,内核库和TensorFlow不同版本之间进行部署。

2.如何在作业期间支持创建临时集群。

3.如何隔离正在使用的资源并阻止同时队同一资源的访问请求。

4.如何在共享的多租户环境中对GPUCPU资源进行管理和分配。

BlueData EPIC软件平台就可以解决这些问题,它能够按照数据科学团队的需要访问各种不同的大数据分析、数据科学、机器学习和深度学习工具。在一个灵活、弹性和安全的多租户架构中使用Docker容器,BDaaSBig-Data-as-a-Service)软件平台可以支持大规模分布式数据科学和深度学习用例。

BlueData的最新版本可以支持启动采用GPU加速的集群,并且支持TensorFlowGPUIntel架构的CPU上进行深度学习。数据科学家可以在BlueData EPIC软件平台上启动即时TensorFlow集群在Docker容器上进行深度学习。BlueData支持在Intel Xeon硬件和Intel MKL上运行基于CPUTensorFlow,也支持采用NVIDIA CUDA库、CUDA扩展以及用于Docker容器的字符设备映射的基于GPUTensorFlow

BlueData EPIC软件平台可以为TensorFlow提供自助服务、弹性和安全环境,无论是在本地、公共云还是在二者的混合结构中都拥有同样的界面,不管其底层架构多么不同,用户都会有相同的用户体验。

如下图所示,用户可以像用于其他大数据分析、数据科学和机器学习环境一样,能够很容易地将带有BigDL的即时TensorFlow集群在BlueData软件平台上进行深度学习。并且,用户可以指定在TensorFlow运行的Docker容器放置在有GPU还是CPU配置的基础架构,以及在公共云还是在本地。

2ef860179a07986d0e3d0889092c9470ec13c7f6 

按需创建TensorFlow集群

BlueData EPIC软件平台上,用户只需点击几下鼠标即可根据自己的需求创建TensorFlow群集。BlueData的最新版本引入主机标签,用户可以创建具有主机标记的基于GPUCPUTensorFlow集群,这些主机标记为特定工作负载指定所需要的硬件,如下图所示。

6dd552a4cced89508d596c51aa2bdf640d832562

一旦创建完成,TensorFlow集群将拥有一个或多个Docker容器节点,这些Docker容器使用TensorFlow软件和相应的GPU/CPU加速库进行部署。例如,基于GPUTensorFlow群集将在Docker容器内具有NVIDIA CUDACUDA扩展;而基于CPUTensorFlow群集则在Docker容器中具有Intel MKLJupyter Notebook扩展。

高效的GPU资源管理

GPU和特定的CPU通常不会作为Docker容器的独立资源。BlueData EPIC软件平台通过在所有主机上管理GPU的共享池并在群集创建期间将GPU所请求的数量分配给群集来处理此问题。这种排他性(或隔离性)保证了对深度学习作业的服务质量,并防止多个处理作业尝试同时访问同一资源。

对于今天的大多数企业来说,GPU是一种需要有效利用的高端资源。当一个集群没有在使用或完成一项作业时,BlueData EPIC软件平台可以停止该集群使用并将GPU分配给其他正在使用的集群。 这允许用户在不同的租户环境中创建多个集群,并且仅仅在集群需要时才使用GPU,而不需要删除或重新创建群集群。还有一种机制,即在作业期间创建一个群集作为暂时性集群。

提高用户生产力

一旦TensorFlow集群创建完成,用户可以使用AD / LDAP控制的SSH启用容器并保护Jupyter Notebook

为了进行验证和测试,TensorFlow集群默认包含Jupyter Notebook,用例如下图所示。

d5a42ece222be19abe5d3dbeb459f20eafe25fcc

上图来自于GitHub回购。这些源码和教程可供用户使用,并可以立即投入应用中去。

BlueData EPIC软件平台上使用TensorFlow库和图表绘制的MNIST数据集的输入数字图像的重建示例如下图所示。

297d802aa7e385d557086c3fd567ad6726224fd9

根据输入图像和模型(使用TensorFlow GradientDescentOptimizer训练)提取数据集和模型预测如下图所示:

f9ae261457186d559797cd2947cc276b82a0163b

对输入图像和输出预测结果的对比如下图所示:

36db230163666fd77b0873d9ee08667b645c9b98

对运行的TensorFlow集群更新

随着新的库和软件包不断被推出,数据科学团队的需求也在不断的变化,因此BlueData EPIC软件平台提供了一种称为“操作脚本”的机制,该机制允许用户使用新的库和软件包对正在运行集群的所有节点进行更新。在长时间运行的交互或批处理作业中,用户还可以使用基于WebUIRESTful APIPython作业提交。

 

 以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Deep Learning With TensorFlow, GPUs, and Docker Containers》,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Docker容器实战(四) - 纷纷扰扰,终归尘土(下)
Docker容器实战(四) - 纷纷扰扰,终归尘土(下)
50 0
Docker容器实战(四) - 纷纷扰扰,终归尘土(上)
Docker容器实战(四) - 纷纷扰扰,终归尘土(上)
55 0
Docker容器实战(四) - 纷纷扰扰,终归尘土(中)
Docker容器实战(四) - 纷纷扰扰,终归尘土(中)
61 0
Docker 容器实战 (四):纷纷扰扰, 终归尘土
伴随着 Docker 公司的容器技术生态在云计算市场中站稳了脚跟,围绕着 Docker 项目进行的各个层次的集成与创新产品,也如雨后春笋般出现在这个新兴市场当中。而 Docker 公司,不失时机地发布了 Docker Compose、Swarm 和 Machine “三件套”,在重定义 PaaS 走出了最关键的一步。
1660 0
Docker容器实战(四) - 纷纷扰扰,终归尘土
Docker公司为什么在Docker项目已经取得巨大成功之后,执意走回已经让无数先驱折戟的PaaS路呢? 实际上,Docker项目一直伴随着公司管理层和股东们的阵阵担忧。他们心里明白,虽然Docker项目备受追捧,但用户们最终要部署的,还是他们的网站、服务、数据库,甚至是云计算业务。
1513 0
Docker容器实战(二) -"鲸鱼"公司粉墨登场
一天天的,PaaS深入人心,Cloud Foundry为首的传统PaaS,开始蓄力基础设施领域的 平台化和PaaS化,于是发现了PaaS中的问题 1 如何给应用打包 Cloud Foundry/OpenShift/Clodify都没给出答案,走向碎片化歪路 此时,名不见经传的PaaS创业公司do...
1377 0
什么,容器太多操作不过来?我选择Docker Compose梭哈(下)
什么,容器太多操作不过来?我选择Docker Compose梭哈(下)
314 0
Docker 容器逃逸案例分析
## 0. 前言 本文参考自《Docker 容器与容器云》 这个容器逃逸的 case 存在于 Docker 1.0 之前的绝大多数版本。 目前使用 Docker 1.0 之前版本的环境几乎不存在了,这篇分析的主要目的是为了加深系统安全方面的学习。
11239 0
【阿里在线技术峰会】易立:从Docker到容器服务 ——Docker 云端实践之路
在首届阿里巴巴在线峰会上,阿里云技术专家易立为大家带来了题为《从Docker到容器服务——Docker 云端实践之路》的分享,主要分享内容是对Docker编排技术进行概述,接着重点介绍了新的概念——Container as a Service,包括微服务支持和DevOps,最后分享了Docker的最
13000 0
在阿里云上体验Docker 1.12的路由能力和容器应用分发部署
Docker 1.12除了提供内置的编排能力,也提供了服务路由支持 routing mesh,和新的多容器应用分发和部署机制, Docker Stack和Distributed Application Bundle
13585 0
+关注
【方向】
欢迎各位对内容方向及质量提需求,我们尽量满足,将国外优质的内容呈现给大家!
706
文章
5
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载