大话文本检测经典模型：EAST-低调大师

大话文本检测经典模型：EAST

2019-05-15 794

自然场景的文本检测是当前深度学习的重要应用，在之前的文章中已经介绍了基于深度学习的文本检测模型CTPN、SegLink（见文章：大话文本检测经典模型CTPN、大话文本检测经典模型SegLink）。典型的文本检测模型一般是会分多个阶段（multi-stage）进行，在训练时需要把文本检测切割成多个阶段（stage）来进行学习，这种把完整文本行先分割检测再合并的方式，既影响了文本检测的精度又非常耗时，对于文本检测任务上中间过程处理得越多可能效果会越差。那么有没有又快、又准的检测模型呢？

一、EAST模型简介

本文介绍的文本检测模型EAST，便简化了中间的过程步骤，直接实现端到端文本检测，优雅简洁，检测的准确性和速度都有了进一步的提升。如下图：

其中，（a）、（b）、（c）、（d）是几种常见的文本检测过程，典型的检测过程包括候选框提取、候选框过滤、bouding box回归、候选框合并等阶段，中间过程比较冗长。而（e）即是本文介绍的EAST模型检测过程，从上图可看出，其过程简化为只有FCN阶段（全卷积网络）、NMS阶段（非极大抑制），中间过程大大缩减，而且输出结果支持文本行、单词的多个角度检测，既高效准确，又能适应多种自然应用场景。（d）为CTPN模型，虽然检测过程与（e）的EAST模型相似，但只支持水平方向的文本检测，可应用的场景不如EAST模型。如下图：

二、EAST模型网络结构

EAST模型的网络结构，如下图：

EAST模型的网络结构分为特征提取层、特征融合层、输出层三大部分。

下面展开进行介绍：

1、特征提取层

基于PVANet（一种目标检测的模型）作为网络结构的骨干，分别从stage1，stage2，stage3，stage4的卷积层抽取出特征图，卷积层的尺寸依次减半，但卷积核的数量依次增倍，这是一种“金字塔特征网络”（FPN，feature pyramid network）的思想。通过这种方式，可抽取出不同尺度的特征图，以实现对不同尺度文本行的检测（大的feature map擅长检测小物体，小的feature map擅长检测大物体）。这个思想与前面文章介绍的SegLink模型很像；

2、特征融合层

将前面抽取的特征图按一定的规则进行合并，这里的合并规则采用了U-net方法，规则如下：

特征提取层中抽取的最后一层的特征图（f1）被最先送入unpooling层，将图像放大1倍
接着与前一层的特征图（f2）串起来（concatenate）
然后依次作卷积核大小为1x1，3x3的卷积
对f3，f4重复以上过程，而卷积核的个数逐层递减，依次为128，64，32
最后经过32核，3x3卷积后将结果输出到“输出层”

3、输出层

最终输出以下5部分的信息，分别是：

score map：检测框的置信度，1个参数；
text boxes：检测框的位置（x, y, w, h），4个参数；
text rotation angle：检测框的旋转角度，1个参数；
text quadrangle coordinates：任意四边形检测框的位置坐标，(x1, y1), (x2, y2), (x3, y3), (x4, y4)，8个参数。

其中，text boxes的位置坐标与text quadrangle coordinates的位置坐标看起来似乎有点重复，其实不然，这是为了解决一些扭曲变形文本行，如下图：

如果只输出text boxes的位置坐标和旋转角度（x, y, w, h,θ），那么预测出来的检测框就是上图的粉色框，与真实文本的位置存在误差。而输出层的最后再输出任意四边形的位置坐标，那么就可以更加准确地预测出检测框的位置（黄色框）。

三、EAST模型效果

EAST文本检测的效果如下图，其中，部分有仿射变换的文本行的检测效果（如广告牌）

EAST模型的优势在于简洁的检测过程，高效、准确，并能实现多角度的文本行检测。但也存在着不足之处，例如（1）在检测长文本时的效果比较差，这主要是由于网络的感受野不够大；（2）在检测曲线文本时，效果不是很理想

四、Advanced EAST

为改进EAST的长文本检测效果不佳的缺陷，有人提出了Advanced EAST，以VGG16作为网络结构的骨干，同样由特征提取层、特征合并层、输出层三部分构成。经实验，Advanced EAST比EAST的检测准确性更好，特别是在长文本上的检测。

网络结构如下：

墙裂建议

2017年，Xinyu Zhou 等人发表了关于EAST的经典论文《 EAST: An Efficient and Accurate Scene Text Detector 》，在论文中详细介绍了EAST的技术原理，建议阅读该论文以进一步了解该模型。

关注本人公众号“大数据与人工智能Lab”（BigdataAILab），然后回复“论文”关键字可在线阅读经典论文的内容。

推荐相关阅读

微信关注我们

原文链接：https://my.oschina.net/u/876354/blog/3050127

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Redis从入门到放弃系列(二) Hash

Redis从入门到放弃系列(二) Hash 本文例子基于：5.0.4 Hash是Redis中一种比较常见的数据结构,其实现为hashtable/ziplist,默认创建时为ziplist,当到达一定量级时,redis会将ziplist转化为hashtable Redis从入门到放弃系列(一) String 首先让我们来看一下该如何在redis里面使用Hash类型 //将hash表中key的域field的值设为value //如果key不存在，一个新的哈希表被创建并进行HSET操作 //如果域field已经存在于哈希表中，旧值将被覆盖 hset key field value 代码示例： //创建不存在的field >hset user:1 id 1 (integer) 1 //覆盖原先的field >hset user:1 id 2 (integer) 0 >hget user:1 id "2" //获取不存在的field >hget user:1 not_exist (nil) ------------------------...

2019-05-15

534

作者：Dan 本文转载自公众号「白噪声OG」。经历了上礼拜漫长的上线周期，终于有时间总结一下期间发生的故事。TiDB 是一款非常优秀的国产分布式 NewSQL 数据库，因其支持水平扩展性、强一致性、高可用性，从 18 年 3 月起已在国内银行的账务、支付类核心系统得到应用。临近年中，银行重要系统的建设进入投产冲刺阶段，本次上线又有多个系统对接 TiDB，为了优化集群资源分配，引发了这次分享的主题——线上系统 TiKV 的缩容、region 的迁移，本文主要针对本次 TiKV 的缩容、迁移过程进行梳理总结。 TiDB 数据库的扩容已在官方文档进行了详细的说明（https://pingcap.com/docs-cn/op-guide/horizontal-scale/）并被各路大咖广泛提及，但缩容迁移并在银行交易系统上的实践却少有分享，这也是本文的目的之一。进入主题，先交代下环境，服务器集群采用 NVMe+SSD 的存储方案构建了 16 个 TiKV 实例，作为重要的核心支付类系统，两地三中心五副本不可少，每个 TiKV 上 8K+ 个 region。整个迁移过程历时 5 个小时，过...

2019-05-16

791

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。