ATC 模型转换动态 shape 问题案例

简介: ATC(Ascend Tensor Compiler)是异构计算架构 CANN 体系下的模型转换工具:它可以将开源框架的网络模型(如 TensorFlow 等)以及 Ascend IR 定义的单算子描述文件转换为昇腾 AI 处理器支持的离线模型;模型转换过程中,ATC 会进行算子调度优化、权重数据重排、内存使用优化等具体操作,对原始的深度学习模型进行进一步的调优,从而满足部署场景下的高性能需求,使其能够高效执行在昇腾 AI 处理器上。

ATC(Ascend Tensor Compiler)是异构计算架构 CANN 体系下的模型转换工具:它可以将开源框架的网络模型(如 TensorFlow 等)以及 Ascend IR 定义的单算子描述文件转换为昇腾 AI 处理器支持的离线模型;模型转换过程中,ATC 会进行算子调度优化、权重数据重排、内存使用优化等具体操作,对原始的深度学习模型进行进一步的调优,从而满足部署场景下的高性能需求,使其能够高效执行在昇腾 AI 处理器上。

本期就分享几个关于 ATC 模型转换动态 shape 相关问题的典型案例,并给出原因分析及解决方法:

原始网络模型 shape 中存在不固定的维度值,模型转换未设置 shape 信息
动态 BatchSize / 动态分辨率 / 动态维度场景,只设置一个档位,模型转换失败
使用动态 batchsize 参数转模型时,其他档位设置了 - 1,模型转换失败
使用动态分辨率参数转模型时,其他档位设置了 - 1,模型转换失败
01 原始网络模型 shape 中存在不固定的维度值,模型转换未设置 shape 信息
问题现象描述
获取原始网络模型,执行如下命令进行模型转换:

atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend310
报错信息如下:

ATC run failed, Please check the detail log, Try 'atc --help' for more information

E10001: Value [-1] for parameter [Inputs] is invalid. Reason: maybe you should set input_shape to specify its shape

Solution: Try again with a valid argument.
原因分析
原始模型的 shape 存在不固定的维度值 “-1”,模型输入样例如下,模型转换时,并未给不固定的维度值赋值。

cke_148.png

解决措施
设置固定 shape。
模型转换时,给不确定的维度值设置固定取值,示例如下:

atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend310 --input_shape="Inputs:1,224,224,3"
设置 shape 分档。
与动态 BatchSize 参数配合使用,使转换后的模型进行推理时,可以每次处理多种数量的图片,示例如下:

atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend310 --input_shape="Inputs:-1,224,224,3" --dynamic_batch_size="1,2,4,8"
这样转换后的离线模型,可以支持每次处理 1、2、4、8 张图片,而不用再进行 4 次模型转换。

设置 shape 范围。
模型转换时,将对应维度的值设置成一个范围,示例如下:

atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend910 --input_shape="Inputs:1~10,224,224,3"
这样转换后的离线模型,可以支持每次处理 1~10 张范围内的图片。

02 动态 BatchSize / 动态分辨率 / 动态维度场景,只设置一个档位,模型转换失败
问题现象描述
此类问题我们以 --dynamic_batch_size 参数为例进行说明。

使用 ATC 工具进行模型转换时,使用 --dynamic_batch_size 参数转换支持多个 BatchSize 的模型,转换命令样例如下:

atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,224,224,3" --dynamic_batch_size="2" --soc_version=Ascend310 --output=./out/test --framework=3
报错信息如下:

ATC run failed, Please check the detail log, Try 'atc --help' for more information

E10035: [--dynamic_batch_size], [--dynamic_image_size], or [--dynamic_dims] has [1] profiles, which is less than the minimum ([2]).

Solution: Ensure that the number of profiles configured in [--dynamic_batch_size], [--dynamic_image_size], or [--dynamic_dims] is at least the minimum.

TraceBack (most recent call last):

[GraphOpt][Prepare] Failed to run multi-dims-process for graph[test].[FUNC:OptimizeAfterGraphNormalization][FILE:fe_graph_optimizer.cc][LINE:639]

Call OptimizeAfterGraphNormalization failed, engine_name:AIcoreEngine, graph_name:test[FUNC:OptimizeAfterGraphNormalization][FILE:graph_optimize.cc][LINE:224] build graph failed, graph id:0, ret:1343225857[FUNC:BuildModelWithGraphId][FILE:ge_generator.cc][LINE:1656]
原因分析
使用 ATC 工具进行模型转换,如果使用了 --dynamic_batch_size 或 --dynamic_image_size 或 --dynamic_dims 动态 shape 参数时,请确保设置的档位数取值范围为 (1,100],既必须设置至少 2 个档位,最多支持 100 档配置。

上述模型转换命令,只设置了一个档位,不符合参数设置要求。

解决措施
重新设置模型转换时的档位信息,至少设置 2 个档位,档位之间使用英文逗号分隔。改后样例如下:

atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,224,224,3" --dynamic_batch_size="2,4" --soc_version=Ascend310 --output=./out/test --framework=3
03 使用动态 batchsize 参数转模型时,其他档位设置了 - 1,模型转换失败
问题现象描述
使用 ATC 工具进行模型转换时,使用 --dynamic_batch_size 参数转换支持多个 BatchSize 的模型,转换命令样例如下:

atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,-1,-1,3" --dynamic_batch_size="2,4,8" --soc_version=Ascend310 --output=./out/test --framework=3
报错信息如下:

ATC run failed, Please check the detail log, Try 'atc --help' for more information

E10018: Value [-1] for shape [1] is invalid. When [--dynamic_batch_size] is included, only batch size N can be –1 in [--input_shape].

Possible Cause: When [--dynamic_batch_size] is included, only batch size N can be –1 in the shape.

Solution: Try again with a valid [--input_shape] argument. Make sure that non-batch size axes are not –1.

TraceBack (most recent call last):

[--dynamic_batch_size] is included, but none of the nodes specified in [--input_shape] have a batch size equaling –1.
原因分析
使用 ATC 工具进行模型转换,如果使用了 --dynamic_batch_size 参数,shape 中只有 N 支持设置为 "-1",且只支持 N 在 shape 首位的场景,既 shape 的第一位设置为 "-1"。如果 N 在非首位场景下,请使用 --dynamic_dims 参数进行设置。

上述模型转换命令,shape 中 N、H、W 都设置了 "-1",不符合参数设置要求。

解决措施
重新设置模型转换时的参数信息,只设置 shape 中的 N 为 "-1"。改后样例如下:

atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,224,224,3" --dynamic_batch_size="2,4,8" --soc_version=Ascend310 --output=./out/test --framework=3
04 使用动态分辨率参数转模型时,其他档位设置了 - 1,模型转换失败
问题现象描述
使用 ATC 工具进行模型转换时,使用 --dynamic_image_size 参数转换支持多个分辨率的模型,转换命令样例如下:

atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,-1,-1,3" --dynamic_image_size="448,448;224,224" --soc_version=Ascend310 --output=./out/test --framework=3
报错信息如下:

ATC run failed, Please check the detail log, Try 'atc --help' for more information

E10019: When [--dynamic_image_size] is included, only the height and width axes can be –1 in [--input_shape].

Possible Cause: When [--dynamic_image_size] is included, only the height and width axes can be –1 in the shape.

Solution: Try again with a valid [--input_shape] argument. Make sure that axes other than height and width are not –1.
原因分析
使用 ATC 工具进行模型转换,如果使用了 --dynamic_image_size 参数,shape 中只有 H、W 支持设置为 "-1",且只支持 format 为 NCHW、NHWC 格式;其他 format 场景,设置分辨率请使用 --dynamic_dims 参数。上述模型转换命令,shape 中 N、H、W 都设置了 "-1",不符合参数设置要求。

解决措施
重新设置模型转换时的参数信息,只设置 shape 中的 H,W 为 "-1"。改后样例如下:

atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:1,-1,-1,3" --dynamic_image_size="448,448;224,224" --soc_version=Ascend310 --output=./out/test --framework=3
05 更多介绍
[1] 昇腾文档中心:https://www.hiascend.com/zh/document

[2] 昇腾社区在线课程:https://www.hiascend.com/zh/edu/courses

[3] 昇腾论坛:https://www.hiascend.com/forum

号外!
cke_35894.jpeg

华为将于 2023 年 9 月 20-22 日,在上海世博展览馆和上海世博中心举办第八届华为全联接大会(HUAWEICONNECT 2023)。本次大会以 “加速行业智能化” 为主题,邀请思想领袖、商业精英、技术专家、合作伙伴、开发者等业界同仁,从商业、产业、生态等方面探讨如何加速行业智能化。

我们诚邀您莅临现场,分享智能化的机遇和挑战,共商智能化的关键举措,体验智能化技术的创新和应用。您可以:

相关文章
|
20天前
|
机器学习/深度学习 Serverless 索引
分类网络中one-hot编码的作用
在分类任务中,使用神经网络时,通常需要将类别标签转换为一种合适的输入格式。这时候,one-hot编码(one-hot encoding)是一种常见且有效的方法。one-hot编码将类别标签表示为向量形式,其中只有一个元素为1,其他元素为0。
23 2
|
7月前
|
数据可视化
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例(上)
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
|
7月前
|
资源调度 安全
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例(下)
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
|
7月前
|
前端开发 PyTorch 算法框架/工具
【基础实操】借用torch自带网络进行训练自己的图像数据
【基础实操】借用torch自带网络进行训练自己的图像数据
100 0
【基础实操】借用torch自带网络进行训练自己的图像数据
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch深度学习基础之Tensor对象及其应用的讲解及实战(附源码 简单易懂 包括分段 映射 矩阵乘法 随机数等等)
PyTorch深度学习基础之Tensor对象及其应用的讲解及实战(附源码 简单易懂 包括分段 映射 矩阵乘法 随机数等等)
86 1
|
数据采集 移动开发 数据可视化
空间转录组|Load10X_Spatial函数修改适配多形式数据 + 空转标准流程
空间转录组|Load10X_Spatial函数修改适配多形式数据 + 空转标准流程
663 0
|
数据挖掘 计算机视觉
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(二)
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(二)
153 0
|
机器学习/深度学习 PyTorch 算法框架/工具
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(一)
即插即用 | SA模块携Shuffle Attention带你CV全任务涨点(文末获取论文与源码)(一)
962 0
|
人工智能 缓存 算法
CVPR‘2023 Highlight | Point-NN: 即插即用,无需训练的非参数点云分析网络!
CVPR‘2023 Highlight | Point-NN: 即插即用,无需训练的非参数点云分析网络!
334 0
|
机器学习/深度学习 存储 缓存
CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络
点云三维数据处理是自动驾驶,场景理解和机器人中的基本操作。点云包含无序点,离散描述三维空间中的物体表面。与基于网格的2D图像不同,它们是分布不规则和排列不变的,这导致了算法设计方面的非常规挑战。
852 0
下一篇
DataWorks