昇腾迁移丨4个TensorFlow模型训练案例解读

2023-11-06 356

本文分享自华为云社区《TensorFlow模型训练常见案例》，作者：昇腾CANN。

基于TensorFlow的Python API开发的训练脚本默认运行在CPU/GPU/TPU上，为了使这些脚本能够利用昇腾AI处理器的强大算力，需要将其迁移到昇腾平台。

本期分享几个TensorFlow网络迁移到昇腾平台后执行失败或者执行性能差的典型案例，并给出原因分析及解决方法。

01 数据预处理中存在资源类算子，导致训练异常

问题现象

TensorFlow网络执行时，报如下错误：

[2021-03-19 13:50:24.895266: W tensorflow/core/framework/op_kernel.cc:1651] OP_REQUIRES failed at lookup_table_op.cc:809 : Failed precondition: Table not initialized.

[2021-03-19 13:50:24.895283: W tensorflow/core/framework/op_kernel.cc:1651] OP_REQUIRES failed at lookup_table_op.cc:809 : Failed precondition: Table not initialized.

原因分析

初始化图中存在资源类算子HaskTableV2 ，数据预处理中存在资源类算子LookupTableFindV2，两个算子需要配对使用。

昇腾AI处理器默认采用计算全下沉模式，即所有的计算类算子（包括初始化图中的资源类算子）全部在Device侧执行，数据预处理仍在Host执行。这样数据预处理中的LookupTableFindV2算子与初始化图中的HaskTableV2算子未在同一设备执行，导致网络运行出错。

解决方案

需要修改训练脚本，使能混合计算能力，将资源类算子的初始化图也留在Host侧执行，训练脚本修改方法如下：

from npu_bridge.npu_init import *

config = tf.ConfigProto()

custom_op = config.graph_options.rewrite_options.custom_optimizers.add()

custom_op.name = "NpuOptimizer"

custom_op.parameter_map["mix_compile_mode"].b = True

config.graph_options.rewrite_options.remapping = RewriterConfig.OFF

config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF

with tf.Session(config=config) as sess:

sess.run(...)

其中配置参数“mix_compile_mode”是混合计算开启开关，当此开关配置为“True”后，会将需要成对使用的资源类算子留在前端框架在线执行。

补充说明：当用户的预处理脚本中存在需要成对使用的tf.contrib.lookup下Table类的API时，需要参考此方法使能混合计算功能，将初始化图中的对应算子留在Host侧执行。

02 数据预处理中存在tf.Variable，导致训练异常

问题现象

TensorFlow网络执行时，报如下错误：

tensorflow.python.framework.errors_impl.FailedPreconditionError: Error while reading resource variable inference/embed_continuous from Container: localhost. This could mean that the variable was uninitialized. Not found: Resource localhost/inference/embed_continuous/N10tensorflow3VarE does not exist.

原因分析

此问题是由于数据预处理脚本中存在tf.Variable变量。训练脚本在昇腾平台运行时，tf.Variable变量在Host侧执行，而tf.Variable变量的初始化在Device侧执行，变量执行和变量初始化不在同一设备执行，导致训练异常。

使用了tf.Variable的训练脚本代码示例如下：

batch_size = tf.Variable(

tf.placeholder(tf.int64, [], 'batch_size'),

trainable= False, collections=[]

)

train_dataset = train_dataset.batch(batch_size, drop_remainder=True)

解决方案

需要修改训练脚本，将tf.Variable修改成常量，修改示例如下：

batch_size = 64 train_dataset = train_dataset.batch(batch_size, drop_remainder=True)

batch_size = 64

train_dataset = train_dataset.batch(batch_size, drop_remainder=True)

03 动态shape网络执行时报v1控制流算子不支持的错误

问题现象

TensorFlow 1.15版本的动态shape网络执行时，报如下错误：

node node_name(node_type) is v1 control operator, which is not supported, please convert to v2 control operator

原因分析

由于当前TensorFlow网络为动态shape网络，且存在V1版本的控制流算子。在昇腾AI处理器执行TensorFlow动态shape网络当前不支持V1版本的控制流算子，所以会造成网络运行失败。

解决方案

将网络中的TensorFlow V1版本的控制流算子转换为V2版本，即可解决此问题。

方法一：通过设置如下环境变量将TensorFlow V1版本的控制流算子转换为V2版本。

export ENABLE_FORCE_V2_CONTROL=1

方法二：修改网络脚本，在import tensorflow as tf后增加如下两条指令，将TensorFlow V1版本的控制流算子转换为V2版本。

tf.enable_control_flow_v2()

tf.enable_resource_variables()

04 网络调测时ReduceSum算子执行性能差

问题现象

网络调测时，网络整体性能较慢。通过Profiling工具获取网络的Profiling数据，并进行算子的性能数据分析，发现ReduceSum算子的性能很差。

查看Profiling性能数据中ReduceSum算子的详细信息，关键字段如下表蓝色字体所示：

op_type	block_dim	input_shape	input_data_type	input_formats
ReduceSum	1	1,256,256,3	DT_FLOAT16	NHWC

ReduceSum算子的输入数据类型（input_data_type）为“DT_FLOAT16”，block_dim字段的值为“1”，说明该算子未开启多核并行计算。

原因分析

针对昇腾AI处理器的ReduceSum算子，若输入数据类型为float16，由于硬件限制，某些场景下会无法开启多核计算。

解决方案

ReduceSum算子输入数据是float16的情况可能有如下两种场景：

场景一：

网络调测时未开启混合精度，ReduceSum算子的输入数据本身就是float16类型，此种情况下，若ReduceSum算子的性能较差，可尝试在ReduceSum算子前插入一个Cast算子，将算子的输入数据类型从float16转换为float32。

ReduceSum算子在输入类型为float32的场景下，会使能多核并发计算，从而达到提升该算子性能的效果。

场景二：

网络调测时开启了混合精度，将ReduceSum算子的输入数据类型从float32转换成了float16，此种情况下，可将ReduceSum算子加入混合精度黑名单，这样网络调测时ReduceSum算子就不会被转换成float16类型，从而避免该算子性能的劣化。

将ReduceSum算子加入混合精度黑名单的方法如下：

1）修改网络脚本，通过modify_mixlist参数指定需要修改的混合精度算子黑名单，修改示例如下：

# Estimator模式修改方法

npu_config=NPURunConfig(

...

precision_mode="allow_mix_precision",

modify_mixlist="/home/test/ops_info.json"

)

# sess.run模式修改方法

config = tf.ConfigProto()

custom_op = config.graph_options.rewrite_options.custom_optimizers.add()

custom_op.name = "NpuOptimizer"

custom_op.parameter_map["use_off_line"].b = True

custom_op.parameter_map["precision_mode"].s = tf.compat.as_bytes("allow_mix_precision")

custom_op.parameter_map["modify_mixlist"].s = tf.compat.as_bytes("/home/test/ops_info.json")

2）在ops_info.json文件中进行算子黑名单的配置，配置示例如下：

{

"black-list": {

"to-add": ["ReduceSumD"]

}

}

补充说明：仅在ReduceSum算子性能较差时，且符合本案例中的问题现象时，可尝试使用此方法进行性能提升。

05 更多介绍

[1]昇腾文档中心：https://www.hiascend.com/zh/document

[2]昇腾社区在线课程：https://www.hiascend.com/zh/edu/courses

[3]昇腾论坛：https://www.hiascend.com/forum

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10141140

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一封写给 MySQL 8.2 贡献者的感谢信

MySQL 的最新版本 8.2（2023 年 10 月 25 日）是第二个 Innovation 版本。这个新的 Innovation 版本让我们更接近第一个 MySQL LTS 版本！这个新的 Innovation 版本包含了很多伟大社区的贡献。MySQL 8.2.0 包含来自 Meta、Nikolai Kostrigin、Meng-Hsiu Jiang (Amazon)、Richard Dang、Shaohua Wang、Hao Lu、Wen He (Tencent)、Yin Peng (Tencent) 和 Daniël van Eeden 的贡献。让我们看一下所有这些贡献：服务编译 #111549 - 对 WITH_ZLIB 功能进行了额外改进 - Nikolai Kostrigin #111467 - 构建时使用 WITH_ZLIB="system" 会导致失败，因为无法找到 ZLIB - Meng-Hsiu Chiang (Amazon) 客户端 mysqldump：添加了 --ignore-views 选项以跳过生成的转储文件中的表视图 - Meta mysqld...

2023-11-06

365

本文根据TEDx系列演讲「AIGC时代下的客户价值」中，阿里云研究员张为题为《一站式智能数据平台的演进》主旨演讲的内容整理。我叫张为，是阿里云数据库的一名研究员，从事AI与数据库相结合的产品研发工作。我过去的经历和人工智能其实有过好几段交集，最早是2003年，也就是整整20年前。当时我在清华大学人工智能实验室读研究生，接触到了非常早期的人工神经网络。有个作业是用一个非常小的神经网络来拟合一个简单的函数，用于为我们机器人的控制添加灵活性。当时所做出来的神经网络只有三层几十个神经元，也就是几十个参数。用来训练神经网络的数据，大小只有几个KB。用今天的视角来看，简直不能再迷你了。今天我们常常谈论GPU算力，那时候GPU刚诞生不久，它唯一的用途就是玩游戏，所以回看当年，无论是所拥有的数据，还是我们处理数据的能力，都远远不能让我们构建出接近任何生物的智慧信息处理能力，更不要说去挑战人类的智能了。让我们把时间拨回到今天，经历了快速发展数字化的20年，今天我们对数据的存储分析和运算的能力，已经通过云计算基础设施得到了大大的加强。随着数据的积累，以及AI算法的不断迭代演进，今天的AI模型已经开始...

2023-11-06

343

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

昇腾迁移丨4个TensorFlow模型训练案例解读

01 数据预处理中存在资源类算子，导致训练异常

问题现象

原因分析

解决方案

02 数据预处理中存在tf.Variable，导致训练异常

问题现象

原因分析

解决方案

03 动态shape网络执行时报v1控制流算子不支持的错误

问题现象

原因分析

解决方案

04 网络调测时ReduceSum算子执行性能差

问题现象

原因分析

解决方案

05 更多介绍

一封写给 MySQL 8.2 贡献者的感谢信

AIGC 时代的算力基石，未来的数据平台将如何演进?

相关文章

发表评论

资源下载

优质分享App

Mario

Nacos

Sublime Text

欢迎您来访！