昇腾实践丨ATC模型转换动态shape问题案例
本文分享自华为云社区《ATC模型转换动态shape问题案例》,作者:昇腾CANN。
ATC(Ascend Tensor Compiler)是异构计算架构CANN体系下的模型转换工具:它可以将开源框架的网络模型(如TensorFlow等)以及Ascend IR定义的单算子描述文件转换为昇腾AI处理器支持的离线模型;模型转换过程中,ATC会进行算子调度优化、权重数据重排、内存使用优化等具体操作,对原始的深度学习模型进行进一步的调优,从而满足部署场景下的高性能需求,使其能够高效执行在昇腾AI处理器上。
本期就分享几个关于ATC模型转换动态shape相关问题的典型案例,并给出原因分析及解决方法:
- 原始网络模型shape中存在不固定的维度值,模型转换未设置shape信息
- 动态BatchSize/动态分辨率/动态维度场景,只设置一个档位,模型转换失败
- 使用动态batchsize参数转模型时,其他档位设置了-1,模型转换失败
- 使用动态分辨率参数转模型时,其他档位设置了-1,模型转换失败
01 原始网络模型shape中存在不固定的维度值,模型转换未设置shape信息
问题现象描述
获取原始网络模型,执行如下命令进行模型转换:
atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend310
报错信息如下:
ATC run failed, Please check the detail log, Try 'atc --help' for more information E10001: Value [-1] for parameter [Inputs] is invalid. Reason: maybe you should set input_shape to specify its shape Solution: Try again with a valid argument.
原因分析
原始模型的shape存在不固定的维度值“-1”,模型输入样例如下,模型转换时,并未给不固定的维度值赋值。
解决措施
- 设置固定shape。
模型转换时,给不确定的维度值设置固定取值,示例如下:
atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend310 --input_shape="Inputs:1,224,224,3"
- 设置shape分档。
与动态BatchSize参数配合使用,使转换后的模型进行推理时,可以每次处理多种数量的图片,示例如下:
atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend310 --input_shape="Inputs:-1,224,224,3" --dynamic_batch_size="1,2,4,8"
这样转换后的离线模型,可以支持每次处理1、2、4、8张图片,而不用再进行4次模型转换。
- 设置shape范围。
模型转换时,将对应维度的值设置成一个范围,示例如下:
atc --model=./resnet_shape.pb --framework=3 --output=./out/resnet_shape --soc_version=Ascend910 --input_shape="Inputs:1~10,224,224,3"
这样转换后的离线模型,可以支持每次处理1~10张范围内的图片。
02 动态BatchSize/动态分辨率/动态维度场景,只设置一个档位,模型转换失败
问题现象描述
此类问题我们以--dynamic_batch_size参数为例进行说明。
使用ATC工具进行模型转换时,使用--dynamic_batch_size参数转换支持多个BatchSize的模型,转换命令样例如下:
atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,224,224,3" --dynamic_batch_size="2" --soc_version=Ascend310 --output=./out/test --framework=3
报错信息如下:
ATC run failed, Please check the detail log, Try 'atc --help' for more information E10035: [--dynamic_batch_size], [--dynamic_image_size], or [--dynamic_dims] has [1] profiles, which is less than the minimum ([2]). Solution: Ensure that the number of profiles configured in [--dynamic_batch_size], [--dynamic_image_size], or [--dynamic_dims] is at least the minimum. TraceBack (most recent call last): [GraphOpt][Prepare] Failed to run multi-dims-process for graph[test].[FUNC:OptimizeAfterGraphNormalization][FILE:fe_graph_optimizer.cc][LINE:639] Call OptimizeAfterGraphNormalization failed, engine_name:AIcoreEngine, graph_name:test[FUNC:OptimizeAfterGraphNormalization][FILE:graph_optimize.cc][LINE:224] build graph failed, graph id:0, ret:1343225857[FUNC:BuildModelWithGraphId][FILE:ge_generator.cc][LINE:1656]
原因分析
使用ATC工具进行模型转换,如果使用了--dynamic_batch_size或--dynamic_image_size或--dynamic_dims动态shape参数时,请确保设置的档位数取值范围为(1,100],既必须设置至少2个档位,最多支持100档配置。
上述模型转换命令,只设置了一个档位,不符合参数设置要求。
解决措施
重新设置模型转换时的档位信息,至少设置2个档位,档位之间使用英文逗号分隔。改后样例如下:
atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,224,224,3" --dynamic_batch_size="2,4" --soc_version=Ascend310 --output=./out/test --framework=3
03 使用动态batchsize参数转模型时,其他档位设置了-1,模型转换失败
问题现象描述
使用ATC工具进行模型转换时,使用--dynamic_batch_size参数转换支持多个BatchSize的模型,转换命令样例如下:
atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,-1,-1,3" --dynamic_batch_size="2,4,8" --soc_version=Ascend310 --output=./out/test --framework=3
报错信息如下:
ATC run failed, Please check the detail log, Try 'atc --help' for more information E10018: Value [-1] for shape [1] is invalid. When [--dynamic_batch_size] is included, only batch size N can be –1 in [--input_shape]. Possible Cause: When [--dynamic_batch_size] is included, only batch size N can be –1 in the shape. Solution: Try again with a valid [--input_shape] argument. Make sure that non-batch size axes are not –1. TraceBack (most recent call last): [--dynamic_batch_size] is included, but none of the nodes specified in [--input_shape] have a batch size equaling –1.
原因分析
使用ATC工具进行模型转换,如果使用了--dynamic_batch_size参数,shape中只有N支持设置为"-1",且只支持N在shape首位的场景,既shape的第一位设置为"-1"。如果N在非首位场景下,请使用--dynamic_dims参数进行设置。
上述模型转换命令,shape中N、H、W都设置了"-1",不符合参数设置要求。
解决措施
重新设置模型转换时的参数信息,只设置shape中的N为"-1"。改后样例如下:
atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,224,224,3" --dynamic_batch_size="2,4,8" --soc_version=Ascend310 --output=./out/test --framework=3
04 使用动态分辨率参数转模型时,其他档位设置了-1,模型转换失败
问题现象描述
使用ATC工具进行模型转换时,使用--dynamic_image_size参数转换支持多个分辨率的模型,转换命令样例如下:
atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:-1,-1,-1,3" --dynamic_image_size="448,448;224,224" --soc_version=Ascend310 --output=./out/test --framework=3
报错信息如下:
ATC run failed, Please check the detail log, Try 'atc --help' for more information E10019: When [--dynamic_image_size] is included, only the height and width axes can be –1 in [--input_shape]. Possible Cause: When [--dynamic_image_size] is included, only the height and width axes can be –1 in the shape. Solution: Try again with a valid [--input_shape] argument. Make sure that axes other than height and width are not –1.
原因分析
使用ATC工具进行模型转换,如果使用了--dynamic_image_size参数,shape中只有H、W支持设置为"-1",且只支持format为NCHW、NHWC格式;其他format场景,设置分辨率请使用--dynamic_dims参数。上述模型转换命令,shape中N、H、W都设置了"-1",不符合参数设置要求。
解决措施
重新设置模型转换时的参数信息,只设置shape中的H,W为"-1"。改后样例如下:
atc --model=./resnet50_tensorflow_1.7.pb --input_shape="Placeholder:1,-1,-1,3" --dynamic_image_size="448,448;224,224" --soc_version=Ascend310 --output=./out/test --framework=3
05 更多介绍
[1]昇腾文档中心:https://www.hiascend.com/zh/document
[2]昇腾社区在线课程:https://www.hiascend.com/zh/edu/courses
[3]昇腾论坛:https://www.hiascend.com/forum
号外!
华为将于2023年9月20-22日,在上海世博展览馆和上海世博中心举办第八届华为全联接大会(HUAWEICONNECT 2023)。本次大会以“加速行业智能化”为主题,邀请思想领袖、商业精英、技术专家、合作伙伴、开发者等业界同仁,从商业、产业、生态等方面探讨如何加速行业智能化。
我们诚邀您莅临现场,分享智能化的机遇和挑战,共商智能化的关键举措,体验智能化技术的创新和应用。您可以:
- 在100+场主题演讲、峰会、论坛中,碰撞加速行业智能化的观点
- 参观17000平米展区,近距离感受智能化技术在行业中的创新和应用
- 与技术专家面对面交流,了解最新的解决方案、开发工具并动手实践
- 与客户和伙伴共寻商机
感谢您一如既往的支持和信赖,我们热忱期待与您在上海见面。
大会官网:https://www.huawei.com/cn/events/huaweiconnect
欢迎关注“华为云开发者联盟”公众号,获取大会议程、精彩活动和前沿干货。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
从4个特点为你解密华为云媒体网络底座AND
本文分享自华为云社区《解密华为云媒体网络底座ADN》,作者: Satan.D 。 互联网的痛点与解决思路 互联网自1968年起源依赖,已经发展了半个多世纪。互联网仅从中文字面意思,可以简单理解为相互链接的网络。实际上互联网是由全球各国各地区的本地局域网建设者(可称为运营商);把一个个局域网相互链接起来,使得信息可以在一个个局域网之间流动的大型网络。据不完全统计,全球已经有750+的运营商。各个运营商的网络,从早期的ATM网络逐渐演进到IP网络;各个运营商之间网络连通性和质量也参差不齐。这也就导致终端用户通过互联网访问数据的时候,存在着众多的不可控因素,比如时延、丢包等等。 随着以上问题的日益突出,运营商虽然通过各类BGP协议,OSPF等协议,以邻居式发现和链路cost进行路由转发来优化自身网络和网络间的质量;但是随着各运营商的经济投入不等和全球互联网应用业务流量的大幅增长,导致全球流量呈现不同的潮汐变化,尤其在长距离传输方面出现明显的潮汐式丢包。 实际传统互联网在全局网络路径拥塞发生丢包、时延等Qos故障时,不容易感知到,导致业务流量难以做合理的调配来避免问题发生。针对以上问题,华为云...
- 下一篇
后浪搞的在线版 Windows 12「GitHub 热点速览」
本周比较火的莫过于 3 位初中生开源的 Windows 12 网页版,虽然项目完成度不如在线版的 Windows 11,但是不妨一看。除了后生可畏的 win12 之外,开源不到一周的 open-interpreter 表现也很抢眼,一个在终端就能使唤的 AI 助手获得了 15k+ star。 还有深度开源的 deepin-unioncode IDE 表现也不俗,还有不能错过的静态分析工具 biome 和 React 编辑器 puck 都可以玩玩看。 以下内容摘录自微博@HelloGitHub 的 GitHub Trending 及 Hacker News 热帖(简称 HN 热帖),选项标准:新发布 | 实用 | 有趣,根据项目 release 时间分类,发布时间不超过 14 day 的项目会标注 New,无该标志则说明项目 release 超过半月。由于本文篇幅有限,还有部分项目未能在本文展示,望周知 🌝 本文目录 1. 本周特推 1.1 在你的计算机里跑模型:open-interpreter 1.2 Windows 在线版:win12 2. GitHub Trending 周榜 2...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- 2048小游戏-低调大师作品
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8编译安装MySQL8.0.19
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS关闭SELinux安全模块