OCR性能优化：从认识BiLSTM网络结构开始-低调大师

OCR性能优化：从认识BiLSTM网络结构开始

2021-05-20 640

摘要： 想要对OCR进行性能优化，首先要了解清楚待优化的OCR网络的结构，本文从动机的角度来推演下基于Seq2Seq结构的OCR网络是如何一步步搭建起来的。

本文分享自华为云社区《OCR性能优化系列（一）：BiLSTM网络结构概览》，原文作者：HW007。

OCR是指对图片中的印刷体文字进行识别，最近在做OCR模型的性能优化，用 Cuda C 将基于TensorFlow 编写的OCR网络重写了一遍，最终做到了5倍的性能提升。通过这次优化工作对OCR网络的通用网络结构和相关的优化方法有较深的认识，计划在此通过系列博文记录下来，也作为对自己最近工作的一个总结和学习笔记。

想要对OCR进行性能优化，首先要了解清楚待优化的OCR网络的结构，在本文中我将尝试着从动机的角度来推演下基于Seq2Seq结构的OCR网络是如何一步步搭建起来的。

读懂此文的前提只需要了解在矩阵乘法中矩阵的维度变化规律，即n*p的矩阵乘以 p*m 的矩阵等于 n*m 的矩阵。如果知道CNN和RNN网络的结构，对机器学习模型的构造套路有点了解的话更好。

首先给出从本文要剖析的OCR BILSTM 网络总体结构如下图：

接下来我将从这张图的右上角（模型的输出端）向左下角（模型的输入端）逐步解释每一个结构的动机及其作用。

1. 构造最简单的OCR网络

首先考虑最简单情况下的OCR识别场景，假设输入是只含有一个文字图片，图片的高和宽均为32个像素，即32*32的矩阵，为了方便将其拉长便可得到一个 1*1024 的矩阵。在输出方面，由于文字的特殊性，我们只能将所有的文字进行标号，最后输出所识别的文字的编号便好，由此得到我们的输出是一个 1*1 的矩阵，矩阵元素的内容就是所识别的文字的编号。

怎么得到这个1*1的矩阵呢？根据概率统计的套路，我们假设全世界存在10000个文字，将其表为1~1000号，那么这10000个元素都有概率成为我们的输出，因此我们如果先算出这10000个文字作为该输入图片的识别结果的概率的话，再挑概率最大的那个输出便可以了。于是问题被转变成如何从一个 1*1024的矩阵（X）中得到一个 1*10000 的矩阵（Y）。在这里便可以上机器学习模型结构中最常见的线性假设套路了，假设Y和X是之间是线性相关的，这样便可得到最简单且经典的线性模型：Y = AX + B。其中称X（维度：1*1024）为输入，Y（维度：1*10000）为输出，A和B均为该模型的参数，由矩阵乘法可知A的维度应该是 1024*1000，B的维度应该是 1*10000。至此，只有X是已知的，我们要计算Y的话还需要知道A和B的具体值。在机器学习的套路中，作为参数的A和B的值在一开始是随机设定的，然后通过喂大量的X及其标准答案Y来让机器把这两个参数A、B慢慢地调整到最优值，此过程称为模型的训练，喂进去的数据称为训练数据。训练完后，你便可以拿最优的A乘以你的新输入X在加上最优的B得到相应的Y了，使用argMax操作来挑选Y这1*10000个数中最大的那个数的编号，就是识别出来的文字的编号了。

现在，再回头去看图1中右上角的那部分，相信你能看懂两个黄色的 384*10000 和 1*10000的矩阵的含义了。图中例子和上段文字描述的例子的区别主要在于图中的输入是1张 1*1024的图片，上段文字中的是 27张 1*384的图片罢了。至此，你已经了解如何构造一个简单地OCR网络了。接下来我们就开始对这个简单地网络进行优化。

2. 优化策略一：减少计算量

在上面的文字描述的例子中，我们每识别一个文字就要做一次 1*1024和1024*10000的矩阵乘法计算，这里面计算量太大了，是否有一些计算是冗余的呢？熟悉PCA的人应该马上能想到，其实将 32*32 的文字图片拉长为 1*1024的矩阵，这个文字的特征空间是1024维，即便每维的取值只有0和1两种，这个特征空间可表示的值都有2^1024种，远远大于我们所假设的文字空间中所有文字个数10000个。为此我们可以用PCA或各种降维操作把这个输入的特征向量降维到小于10000维，比如像图中的128维。

3. 优化策略二：考虑文字间的相关性

（提醒：在上图中为了体现出batch Size的维度，是按27张文字图片来画的，下文中的讨论均只针对1张文字图片，因此下文中维度为 1的地方均对应着图中的27）

也许你已经注意到了，图中与黄色的384*10000矩阵相乘的“位置图像特征”的维度没有直接用一个1*384，而是 1*（128+128+128）。其实这里隐含着一个优化，这个优化是基于文字间的关联假设的，简单地例子就是如果前面一个字是“您”，那其后面跟着的很可能是“好”字，这种文字顺序中的统计规律应该是可以用来提升文字图片的识别准确率的。那怎么来实现这个关联呢？

在图中我们可以看到左侧有一个10000*128的参数矩阵，很容易知道这个参数就像一个数据库，其保存了所有10000个文字图片经过加工后的特征（所谓加工便是上面提到的降维，原始特征应该是 10000*1024的），照图中的结构，我需要输入当前识别的这个字的前一个字的识别结果（识别工作是一个字接一个字串行地识别出来的）。然后选择出上个字对应的特征矩阵 1*128，再经过一些加工转换后当做1*384的输入中的前1/3部分内容。

同理，1*384里靠后的两个1*128又代表什么含义呢？虽然在句子中，前面一个字对后面一个字的影响很大，即使当前要预测的字在图片中很模糊，我也可以根据前面的字将其猜出来。那是否可以根据其前k个字或者后k个字猜出来呢？显然答案是肯定的。因此靠后的两个1*128分别代表的是句子图片里文字“从前到后（Forward）”和“从后到前（Backward）”的图片特征对当前要识别的字的影响，因此图中在前面加了个“双向LSTM网络”来生成这两个特征。

至此，改良版的OCR网络轮廓基本出来了，还有一些细节上的问题需要解决。不知你是否注意到，按上面所述，1*384中包含了3个1*128的特征，分别代表着前一个字对当前字的影响、图片中的整个句子中各个文字从前到后（Forward）的排序对当前文字的影响、图片中的整个句子中各个文字从后到前（Backward）的排序对当前文字的影响。

但是他们的特征长度都是128！！！一个字是128，一个句子也是128？对于不同的文字图片中，句子的长度还可能不一样，怎么可能都用一个字的特征长度就表示了呢？

如何表示一个可变长的句子的特征呢？乍一看的确是个很棘手的问题，好在它有一个很粗暴简单的解决办法，就是加权求和，又是概率统计里面的套路，管你有几种情况，所有的情况的概率求和后都得等于1。看到在这里不知道是否被震撼到，“变化”和“不变”这样看起来水火不容的两个东西就是这么神奇地共存了，这就是数学的魅力，让人不禁拍手赞绝！

下图以一个实际的例子说明这种神奇的方式的运作方式。当我们要对文字片段中的“筷”字进行识别时，尽管改字已近被遮挡了部分，但根据日常生活中的一些经验知识积累，要对该位置进行补全填空时，我们联系上下文，把注意力放在上文中的“是中国人”和下文中的“吃饭”上。这个加权系数的机制便是用来实现这种注意力机制的。至于“日常生活中的经验”这种东西就是由“注意力机制网络”通过大量的训练数据来学习得到的。也就是图1中的那32个alpha的由来。注意力网络在业界一般由GRU网络担任，由于篇幅原因，在此不展开了，下回有机会再细说。看官们只需知道在图一的右边还应该有个“注意力网络”来输出32个alpha的值便好。

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/5054350

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Redis 存储对象信息是用 Hash 还是 String

Redis 内部使用一个 RedisObject 对象来表示所有的 key 和 value，RedisObject 中的 type，则是代表一个 value 对象具体是何种数据类型，它包含字符串（String）、链表（List）、哈希结构（Hash）、集合（Set）、有序集合（Sorted set）。日常工作中我们存储对象信息的时候，一般有两种做法，一种是用 Hash 存储，另一种是 String 存储。但好像并没有所谓的最佳实践，那么实际上到底用什么数据结构存储更好呢？首先简单回顾下，Redis 的 Hash 和 String 结构。 String String 数据结构是简单的 key-value 类型，value 其实不仅是 String，也可以是数字。Redis 中的 String 可以表示很多语义：字符串（bits）整数浮点数这三种类型，Redis 会根据具体的场景完成自动转换，并且根据需要选取底层的承载方式。String 在Redis 内部存储默认就是一个字符串，被 RedisObject 所引用，当遇到 incr、decr 等操作时会转成数值型进行计算，此时 ...

2021-05-20

579

前言 Java并发编程系列番外篇C A S（Compare and swap），文章风格依然是图文并茂，通俗易懂，让读者们也能与面试官疯狂对线。 C A S作为并发编程必不可少的基础知识，面试时C A S也是个高频考点，所以说C A S是必知必会，本文将带读者们深入理解C A S。大纲 C A S基本概念 C A S（compareAndSwap）也叫比较交换，是一种无锁原子算法，映射到操作系统就是一条cmpxchg硬件汇编指令（保证原子性），其作用是让C P U将内存值更新为新值，但是有个条件，内存值必须与期望值相同，并且C A S操作无需用户态与内核态切换，直接在用户态对内存进行读写操作（意味着不会阻塞/线程上下文切换）。它包含3个参数C A S（V，E，N），V表示待更新的内存值，E表示预期值，N表示新值，当 V值等于E值时，才会将V值更新成N值，如果V值和E值不等，不做更新，这就是一次C A S的操作。简单说，C A S需要你额外给出一个期望值，也就是你认为这个变量现在应该是什么样子的，如果变量不是你想象的那样，说明它已经被别人修改过了，你只需要重新读取，设置新期望值，再...

2021-05-21

695

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。