批量计算如何实现云渲染管理系统? -问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

批量计算如何实现云渲染管理系统?

小天使爱美 2020-03-28 20:37:01 159

批量计算如何实现云渲染管理系统?

分享到
取消 提交回答
全部回答(1)
  • 小天使爱美
    2020-03-28 20:45:20
    1. 使用流程 云渲染管理系统(Render Manager 简称渲管)是一个开源的 web 应用,可以帮助用户轻松搭建阿里云上的私有渲染系统,直接调用海量计算资源,一键管控集群规模,在加速渲染任务的同时省去自建集群的烦恼。

    渲管首页渲管建立在阿里云 BatchCompute 、OSS 和 ECS 的三个云产品基础之上的。详细介绍请参考官网,在使用渲管前,请确保已开通此三产品。

    BatchCompute 是阿里云上的批量计算服务,可以帮助用户进行大规模并行计算。 OSS 是阿里云上的对象存储服务,可以存储海量数据。 ECS 是阿里云上的云服务器,极易运维和操作,可以方便的制作系统镜像。 渲管与这三个云产品的关系如下图rm_c

    1. 使用流程 A) 制作计算节点镜像 根据所要使用的区域,创建 ECS 按量云服务器,在云服务器中安装所需的渲染软件;保存为自定义镜像,并将镜像共享给账号1190847048572539,详见计算节点 镜像制作 章节。

    B) 上传数据到OSS 将渲染所需要的数据上传到对应区域的OSS,并保持上传前的目录结构。

    C) 启动渲管 在 ECS 控制台创建实例(短期使用,选择按量即可),镜像选择镜像市场中的rendermanager(也可以使用渲管安装包进行部署,详见 操作手册 部署章节)。

    D) 配置渲管 登录渲管页面 https://ip/rm/login, 配置完基本信息后(AccessKeys 和 OSS bucket),在镜像管理页中添加上面制作的计算节点镜像 ID,并对该计算节点镜像配置渲染命令行。

    E) 创建项目 在渲管的项目管理页面创建项目,指定 OSS 的数据映射规则(也称 OSS 挂载,在计算节点启动的时候,OSS 上的数据会被挂载到节点的本地路径),选择计算节点镜像 ID,OSS 的输出路径(用于保存渲染结果),计算节点中的临时输出路径。

    F) 集群的创建和管理 在集群管理页面可以按需创建集群,指定计算节点使用的镜像 ID,节点类型和节点数量等信息。

    G) 提交渲染作业 在项目页里提交渲染作业,要指定目的集群、渲染的帧范围以及节点数量等信息。提交完作业后,可实时查看渲染日志以及节点 CPU 使用率等信息。 BatchCompute 提供了测试用的计算节点镜像(windows server 2008,ID:m-wz9du0xaa1pag4ylwzsu),它预装了 blender 渲染软件。使用 blender 制作一个小场景的 演示视频 已上传 OSS(测试时,需下载并上传到您的 OSS bucket)。

    实际生产时,请根据需求制作合适的计算节点镜像。

    1. 准备工作 注册阿里云账号并开通 OSS、ECS 和 BatchCompute 服务。 创建AccessKey。账号信息->AccessKeys->创建 Access Key,记录 Access Key 信息。p0
    2. 渲染示例 A) 创建 OSS bucket阿里云官网->管理控制台->对象存储 OSS->创建 bucket(例如,名字为 renderbucket),地域选择深圳(华南1),读写权限为私有。p1p2p3p4

    3. 获取blender场景并上传到您的 OSS bucket 在浏览器输入 http://openrm.oss-cn-qingdao.aliyuncs.com/blender/monkey/cube.blend 。 下载示例场景文件(BatchCompute 提供的测试场景),在 OSS 控制台创建目录结构blender/monkey,然后在该目录下上传文件,文件路径为oss://renderbucket/blender/monkey/cube.blend。

    4. 启动rendermanager A) 阿里云官网->管理控制台->云服务器 ECS->创建实例

    选择按量付费,然后在镜像市场应用开发分类中搜索 rendermanager 镜像,使用 rendermanager 镜像并按下图配置购买,可适当提高带宽。 使用按量付费要求用户账户至少有 100 块金额,对于地域没有要求,看 ECS 实际售卖库存情况而定。

    p8p9p001p10

    B) 购买后,点击进入管理控制台,在实例列表中可看到刚才启动的云主机(创建会有延迟,请刷新几次)。p11p12

    1. 登入渲管页面 在本地浏览器输入 https://ecs_instance_ip/rm/login,ecs_instance_ip 为 ECS 实例的公网 IP(由于使用了 https,请在浏览器页面授权信任)。初始账号密码为:

    rm_admin rm_admin@123 生产系统,请一定更改账号和密码。

    1. 配置渲管 A) 登录后,点击右上角的配置可进入配置页面,填入 SECURITY_ID,SECURITY_KEY, OSS_BUCEKET 三个字段的值,SECURITY_ID 和 SECURITY_KEY 即上面准备工作中获取的 AccessKey 信息。p14

    B) 设置 OSS_HOST 为 oss-cn-shenzhen.aliyuncs.com;REGION 的选择主要和计算节点的镜像归属有关,必须和计算节点镜像归属 REGION 保持一致;本例采用的官方计算节点镜像(该镜像部署在深圳 REGION)所以此处设置在深圳 REGION 。

    p003

    C) 设置 BATCHCOMPUTE_REGION 为 cn-shenzhen;设置深圳 REGION 原因同上。

    p004

    D) 点击保存。

    1. 添加计算节点镜像 镜像管理->添加计算节点镜像,ECS 镜像 ID:m-wz9du0xaa1pag4ylwzsu(BatchCompute 提供的公用计算节点镜像,实际生产,需要用户制作所需要的计算节点镜像,具体制作流程请参考 操作手册)。p15p16

    2. 配置渲染软件信息 A) 镜像管理->软件配置。p17

    B) 添加软件。p18

    C) 选择 blender 模板并确定,执行 render_cmd 渲染命令。p19

    1. 创建项目 A) 项目管理->新建项目。p20B) 填入需要映射的 OSS 路径数量(本例只映射一个OSS路径),并点击确认。p21C) 填入项目名称: blender_test。D) 镜像选择上面创建的镜像。E) OSS 映射中的选择/输入路径为 /renderbucket/blender/。F) OSS 映射的目的地为盘符 G: (本例中使用的镜像系统为 Windows2008 server)。G) OSS 输出目录填写为 /renderbucket/rm_test/output/。H) 虚拟机中的输出目录填写为 C:\render_output\,该路径用于渲染节点中临时存放渲染结果,并且该目录里的渲染结果会被传输到 OSS 上输出目录里。I) 确定提交。p22

    2. 提交渲染任务 A) 项目管理->提交渲染。p23

    B) 选择场景所在的 OSS 路径前缀。p24

    C) 选择项目根目录, 直到场景文件cube.blend,选中 monkey 文件夹;可以看到页面下部出现场景选择,勾选场景,选择渲染软件,填入渲染起止帧 1~5,并点击提交渲染按钮。p25

    D) 选择渲染中的任务,可查看刚才提交的作业。p26

    1. 查看渲染日志 A) 点击任务名称并点击节点列表。p27

    B) 点击想查看的节点,可以看到渲染器和渲管 worker 的各种日志、标准输出以及标准出错信息(计算节点运行起来后才能看到日志信息)。p28p29p30

    1. 查看渲染结果 A) 等待作业结束后,在已结束的任务中可以可以看到任务状态为 Finished。p31

    B) 点击任务名称,可以查看 OSS 上的输出路径。p32

    C) 在 OSS 控制台上查看对应输出路径,获取地址后点击获取 URL 并复制。p33

    D) 在浏览器粘贴 URL 可以直接查看图片。p34

    E) 恭喜您已跑通云上的 Blender 渲染测试。

    1. 渲管系统结构 A) 渲管与各云产品的详细关系 渲管与各云产品的依赖如下图所示。rm_c

    B) 渲管系统内部结构 p0渲管系统由如下 3 部分组成:

    render manager: 基于 flask 框架开发web 应用,主要负责和用户进行人机交互,接收用户请求。 render master:后台背景进程,根据人机交互的结果进行作业提交以调度。 本地数据库:主要存放用户提交的渲管请求,待渲管任务结束后自动删除该信息。 2. 渲管的部署 在阿里云云市场有已安装了渲管的 ECS 镜像免费售卖,在启动 ECS 实例时,将镜像指定为镜像市场中的 rendermanager,启动即可使用。

    A) 获取渲管镜像 官方渲管镜像:RenderManager 镜像,创建 ECS 实例时,选择镜像市场,直接搜索以上关键字即可获取。自定义渲管镜像:基础镜像建议采用 Ubuntu 14.04 64 位,按照以下步骤安装渲管系统。

    安装 flask

    sudo apt-get install python-flask -y

    安装 uwsgi

    sudo apt-get install uwsgi uwsgi-plugin-python -y

    安装 nginx

    sudo apt-get install nginx –y

    修改 nginx 配置,在 http 模块里添加新的 server

    server {

    listen 1314; #listen port

    server_name localchost;

    location / {

    include uwsgi_params;

    uwsgi_pass 0.0.0.0:8818;#this must be same app_config.xml

    }

    }

    vi /etc/nginx/nginx.conf

    启动 nginx 或重启

    nginx

    获取最新版渲管

    wget http://openrm.oss-cn-qingdao.aliyuncs.com/render_manager_release/latest/rm.tar.gz

    解压

    tar –xf rm.tar.gz

    x.x.x 为版本号

    cd rm-x.x.x

    指定安装目录部署

    python deploy.py /root/rm_install/

    启动

    cd /root/rm_install/rm_install_s && python rm_cmd.py start

    登陆渲管 http://installed_machine_ip:1314/rm/login

    初始账号: rm_admin 密码: rm_admin@123

    若监听在公网,建议采用https

    B) 开通 ECS 实例 请指定某 ECS 实例部署渲管系统,配置参数,请参考创建 Linux 实例

    公网 IP 地址选择分配。 镜像市场: RenderManager 或者自定义镜像 设置密码 3. 渲管系统升级 p43页面右上角的版本信息中可以查看是否有可升级的新版本,第一次使用渲管前,建议升级到最新版本后再使用渲管(每次只能升级到下一版本,所以升级后请查看是否已是最新版本)。

    1. 渲管系统配置 p44配置页面里有渲管系统的各种系统设置。第一次使用渲管时,必须设置SECURITY_ID,SECURITY_KEY,OSS_BUCKET 三个值,不然渲管无法使用。

    SECURITY_ID 和 SECURITY_KEY 即阿里云账号的 AccessKeys 信息,可以在阿里云官网控制台创建。 OSS_BUCKET 可以在 OSS 的控制台创建,用于存储渲管自身的 worker 包已经渲染数据。 渲管默认使用青岛(华北1)区域,如果使用其他区域的 BatchCompute,请修改配置中的OSS_HOST(OSS_BUCKET 必须与 OSS_HOST 属于同一个region)与 BATCHCOMPUTE_REGION,每个 REGION 的 OSS_HOST 也可以工单咨询获取。 区域的选择和计算节点的镜像区域保持一致,若计算节点镜像在深圳区域,则渲管的区域信息也必须是深圳,同时 OSS BUCKET 也必须是该 REGION 下的 BUCKET;若使用批量计算官方提供的计算节点镜像则需要选择深圳 REGION。p45

    其他配置项,请参考页面上的说明。

    1. OSS数据上传 提交渲染作业前,一定要将渲染用到的数据上传 OSS,在计算节点启动后再上传的数据将不能在计算节点中访问到。

    由于 OSS 页面控制台上传数据有大小限制,所以上传数据建议使用 OSS 的 命令行工具(类 linux系统)、windows 客户端或者 MAC 客户端 。

    参考 更多 OSS工具 。

    1. 计算节点镜像制作 渲染客户如希望定制计算节点镜像,请参考:自定义镜像。

    2. 计算节点镜像管理 A) 添加计算节点镜像 在镜像管理页面,可以添加计算节点镜像 ID。add_image

    B) 给计算节点镜像配置渲染软件信息 在添加完计算节点镜像 ID 后,在镜像信息页面可以点击添加软件并配置软件信息。image_config

    在配置软件信息时,需要填入渲染软件的名称,渲染文件的后缀(用于识别渲染文件)以及执行代码。 执行代码(要求 python 语法)会在渲管 worker 中执行,render_cmd 变量即渲染时的命令行,命令行应根据实际安装的渲染软件来填写,比如渲染软件的路径,以及一些参数。渲管中的模板只是个示例,实际使用需要微调。 render_cmd

    渲管已经预定义了一些变量和函数,在执行代码中可以调用这些变量和函数,例如$CPU在执行期会被替换成实际的cpu核数,$START_FRAME在执行期会被替换成起始帧号。

    如果想增加自定义参数,可以选择添加参数,添加的自定义参数会需要在提交作业时填入。关于所有的可用变量可在软件配置页面点击查看。

    $OUTPUT_LOCAL_DIR这个变量即创建项目时配置的节点内临时输出路径,渲染的输出结果应该放在该路径下(大部分渲染器都支持在命令行中指定输出路径),在渲染结束后该目录下的数据会被传输到 OSS。

    1. 项目管理 A) 项目创建 创建项目时需要指定 OSS 数据映射,计算节点镜像,虚拟机内的临时输出路径,OSS 输出路径。

    i. 计算节点镜像 创建项目时选择的计算节点镜像(需要先在镜像管理页面添加计算节点镜像)是提交 AutoCluster 作业时使用的镜像,如果提交作业时指定了集群(在集群管理页面可以创建)则作业直接跑在所指定的集群中。

    ii. OSS数据映射 OSS 数据映射(或者称 OSS 数据挂载),可以将 OSS 上的数据映射到计算节点的本地路径(windows 是盘符),一个作业中的所有计算节点可以共享访问到相同的数据。OSS 数据挂载有如下功能或限制:

    映射的目的路径必须根据计算节点镜像实际的操作系统类型进行填写,否则会导致挂载失败,windows 只能映射到盘符(例 G:),linux 必须是绝对路径。 可共享读取访问 OSS 上的数据。 不支持修改 OSS 上已存在的文件和文件夹名称。 选择 WriteSupport 后,支持本地(挂载路径下)文件和文件夹的创建,以及新建文件的修改。 挂载的本地路径里的改动只是本计算节点可见,不会同步到 OSS。 在 Windows 系统中,在挂载时刻已存在的文件夹中创建的文件或文件夹将不支持删除操作,linux 系统可以。 选择 LockSupport 后,将可以使用文件锁功能(只影响 windows)。 OSS 数据挂载会有分布式cache(集群内),所以在大规模并发读取数据时性能较好(能达到 10MB~30MB,200 台并发,读取 20G 数据)。 OSS 路径必须以’/’结尾。 iii. OSS 输出目录与临时本地输出目录 渲染作业结束时,计算节点中的临时输出目录中的数据将会被传输到 OSS 输出目录中。临时输出路径格式必须与节点的操作系统类型对应,不然会出错。

    B) 提交渲染任务 p41选择目的集群和场景所在的 OSS 路径前缀后进入提交的详细页面,选中场景文件的上一级目录,可以被提交渲染的场景文件则会被列出,勾选想要渲染的文件,选择配置的渲染软件和起止帧,即可提交渲染作业。

    可指定节点数量,如果指定集群,并发数量上限是集群的节点数上限。填入的起止帧会均匀的分布在各个计算节点被渲染。p42

    任务结束后可以在OSS上查看输出结果,如果开启自动下载(配置页面设置),渲管会在任务结束后将OSS上的输出结果下载到渲管部署的机器上。

    C) 渲染日志 在节点列表页面,点击节点可以查看各种日志,渲管 worker 日志里都是渲管系统 worker 的日志,里面可以查看该计算节点中运行的实际渲染命令行。

    渲染器标准输出和渲染器标准输出里的日志,就是渲染软件的输出日志。

    p47

    1. 调试 新启动的渲管需要进行配置,并进行调试然后再提交大规模的渲染任务。

    配置完,应该先提交1帧测试任务,查看错误日志(渲管 worker 日志和渲染器标准输出)调整渲染软件配置(主要是修改渲染命令行),走通全流程并确认结果没有问题后才进行正式生产渲染。

    当作业失败的时候可以在作业信息中查看失败原因项。p46

    建议创建一个集群然后将作业提交到该集群进行调试(AutoCluster 的作业需要启停计算节点,比较费时)。

    1. 集群管理 在集群管理页面可以创建自定义集群,需要选择所需的计算节点镜像 ID,节点的实例类型(BatchCompute 的不同区域可能支持的实例类型和磁盘类型不同,详细可以提工单咨询)。

    磁盘类型和磁盘大小(根据实际制作的计算节点镜像的磁盘大小选择,选择过小会导致无法启动计算节点)。创建好的集群可以动态调整节点数量,甚至调整数量到 0。p48

    0 0
云计算
使用钉钉扫一扫加入圈子
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

推荐文章