如何使用TensorFlow?-问答-阿里云开发者社区-阿里云

开发者社区> 小天使爱美> 正文

如何使用TensorFlow?

2020-03-23 19:39:22 321 1

如何使用TensorFlow?

取消 提交回答
全部回答(1)
  • 小天使爱美
    2020-03-23 19:39:50

    简介 E-HPC不仅支持工业/科研行业的高性能计算作业,还可以支持机器学习类作业,本文档介绍在E-HPC上部署和执行TensorFlow作业的基本流程。

    本案例使用的Perseus是阿里云提供的一种统一支持Tensorflow、Caffe、MXNET、PyToch的分布式训练的深度优化框架,目的是为了机器学习提速,提升训练效率。部署Perseus的同时会自动部署TensoFlow框架。

    本案例测试程序为tensorflow benchmarks,E-HPC集群创建完成后,存放在/root/perseus-tf-vm-demo目录中。

    创建E-HPC集群并适配Persues环境 目前,Persues已经集成在E-HPC产品中,若在E-HPC适配Persues运行环境,需要在E-HPC创建过程完成以下几步:

    1)创建集群时,在【硬件配置】中选择【计算节点】 时,选择带有NVIDIA P100 GPU的实例,如下图所示:

    GPU节点

    2)在【软件配置】下,【镜像类型】选择 镜像市场,【操作系统】选择 阿里ai云加速镜像Perseus v0.9.3r3

    示例程序测试 待集群启动后,可以通过以下几个步骤进行示例的测试:

    1)拷贝测试程序:perseus-tf-vm-demo 示例程序存放在镜像的/root目录下。运行时,可以将perseus-tf-vm-demo从/root目录中拷贝到自己普通用户的家目录下(可以用root用户登录执行),并改为普通用户的属主、属组。

    $ cd /root $ cp -r ./perseus-tf-vm-demo /home/username/ $ cd /home/username $ chown -R username:users ./perseus-tf-vm-demo 2)编写PBS作业脚本:普通用户模式登录管控节点,在perseus-tf-vm-demo文件下有两个文件:benchmarks和launch-example.sh。可以创建以下test.pbs作业脚本启动测试程序。

    $ cat test.pbs #! /bin/bash #PBS -N Perseus
    #PBS -l nodes=x:ppn=y #PBS -o perseus_pbs.log #PBS -j oe cd $PBS_O_WORKDIR nodefile=cat $PBS_NODEFILE|uniq -d |awk -F "." '{print $1}' sh launch-example.sh x z $nodefile 其中,x 为申请计算节点数量,y为每计算节点cpu核数 , z 为每节点gpu卡数量

    3)提交作业:通过qsub提交PBS作业,此时作业由调度系统调度执行。

    $ qsub test.pbs 运行结果及分析 1)当计算节点数量为1时,每节点gpu卡为1,运行后的结果可以作为基准。图表示在tensorflow环境但节点下每秒钟处理292.57张图片。

    13_52_41__03_04_2019

    ​ 当计算节点数量为1,每节点gpu卡为2,即单机多卡计算时:

    16_20_49__03_04_2019

    ​ 当计算节点数量为2,每节点gpu卡为1,即多机分布式计算时:

    15_37_53__03_04_2019

    2)结果分析

    多卡并行效率 = (total imgages/sec) /基准 / gpu总数量 / 节点数量 = ((568.45+568.44)/2)/ (292.57) /2 /1 = 0.9714 当Perseus 框架下的benchmarks程序运行在同一节上不同gpu配置的情况下,以单节点1gpu卡配置运行的结果为基准,通过计算其并行效率,可以分析出相对于基准,单计算节点2gpu卡配置的计算性能损耗。

    多机并行效率 =(多节点 total images /sec)/ 基准 / 节点数量 =((544.36+544.36)/2 )/ (292.57)/ 2 = 0.9303 当Perseus 框架下的benchmarks程序运行在不同节点数量上每节点相同gpu配置的情况下,以单节点1gpu卡配置运行的结果为基准,通过计算其并行效率,可以分析出相对于基准,多计算节点1gpu卡配置的计算性能损耗。

    0 0
相关问答

1

回答

求助:深度学习PAI‘格式转换’组件运行失败!

验证码识别 2017-09-28 18:02:32 4840浏览量 回答数 1

1

回答

Tensorflow:Logits和标签必须具有相同的第一个维度

一码平川MACHEL 2019-01-16 18:15:54 6379浏览量 回答数 1

2

回答

java载入tensorflow模型后计算结果与python的不一样

只是一条狗 2017-12-18 09:37:08 5573浏览量 回答数 2

1

回答

想问下 Flink 和 Tensorflow 结合这点有成熟些的方案么?有些团队有这个需求,但目前各种方案感觉都或多或少有问题、

赵慧 2018-10-18 13:24:06 5155浏览量 回答数 1

4

回答

图像识别【问答合集】

我是管理员 2018-08-10 16:36:23 5830浏览量 回答数 4

1

回答

Tensorflow 运行examples中mnist_with_summaries.py出现的问题

boyinblackhat 2017-09-27 23:34:30 4880浏览量 回答数 1

3

回答

2020年热门编程语言的发展方向

珍宝珠 2020-02-17 17:58:58 8093浏览量 回答数 3

42

回答

【精品问答集锦】Python热门问题

小六码奴 2019-05-30 15:27:34 135646浏览量 回答数 42

1

回答

Docker怎么入门

boxti 2017-10-20 10:53:22 22999浏览量 回答数 1

1

回答

安装glibc配置软链接出现segmentation fault

arly123 2017-08-11 16:28:00 7115浏览量 回答数 1
0
文章
3151
问答
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载