【CVPR2018】如何增强Attention Model的推理能力-低调大师

【CVPR2018】如何增强Attention Model的推理能力

2018-07-02 614

目前Attention Model已经被用到了机器视觉，自然语言理解，语音识别，机器翻译等等各行各业。各种各样的Attention Model也被各种Task使用。如何增强Attention Model的推理能力、在使用Attention Model的时候提升模型性能，成为了一个关键的问题。在本文中，我们介绍一种在CVPR 2018大会提出的方法，可以通过极为简单的改进有效的提升Attention Model的性能。

论文题目：Stacked Latent Attention for Multimodal Reasoning

什么是Attention Model

首先我们用下图的例子简单的重温Attention Model：

给定Hidden State，Attention Model可以学到对输入（图示中为图像）Tensor最相关的Mask，并使用Mask对输入Tensor进行加权和，并将加权和后得到的Content Vector作为Attention Model的输出。换而言之，Attention Model可以学到给定输入中最重要的部分，从而对输入进行“总结”。

增强Attention Model的性能的方法——Stacked Attention Model

接下来我们介绍一种非常常用的增强Attention Model的性能的方法：Stacked Attention Model。顾名思义，就是简单的拼接（Stack）多个Attention Model，将前一个AttentionModel的输出作为下一个Attention Model的输入。具体实现如下图所示：

在今年刚刚召开的CVPR大会中，研究者对这种常用的增强Attention Model的方法进行了探索，提出了上图中方法的缺陷，并通过极为简单的改进有效地增强了Attention Model的推理性能：

研究者发现，在Attention Model“总结”输入Tensor的同时，造成了信息瓶颈（Information Bottleneck），该信息瓶颈会导致模型性能下降。同时因Attention Model的SoftMax集中在Pathway上而造成了梯度弥散，进而导致在使用多层Attention Model时模型难以优化（Optimize）。

研究者提出，通过简单将多层Attention Model的隐变量(Latent State)连接（Concat）起来（上图绿色虚线），就可以解决信息瓶颈和梯度弥散问题。如上图所示，在没有绿色虚线的情况下，模型仅仅将多层Attention Model叠加起来，此方法不但1）在每两个Attention Model之间造成了信息瓶颈，同时2）因主要Pathway中有多个SoftMax，而造成梯度弥散。

文章提出，仅仅通过增加上图中的绿色虚线，将前一层Attention Model中的隐变量(LatentState) 连接（Concat）到下一个Attention Model中，就可以1）打破信息瓶颈，同时2）通过提供了新的Pathway避开原Pathway中的多个SoftMax，从而缓解梯度弥散，进而3）提升模型性能。

实验表明，当将多层Attention Models的隐变量连接起来，随着简单增加所连接的Attention Model的数量，整体模型性能得到了显著的提升。同时梯度弥散问题得到了明显的缓解：

原文发布时间为：2018-07-02
本文作者：专知
本文来自云栖社区合作伙伴“专知”，了解相关信息可以关注“专知”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/604563

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

sklearn调包侠之朴素贝叶斯

文档处理朴素贝叶斯算法常用于文档的分类问题上，但计算机是不能直接理解文档内容的，怎么把文档内容转换为计算机可以计算的数字，这是自然语言处理（NLP）中很重要的内容。 TF-IDF方法今天我们简单讲解TF-IDF方法，将文本数据转换为数字。TF-IDF是一个统计方法，用来评估单个单词在文档中的重要程度。 TF表示词频，对一个文档而言，词频就是词在文档出现的次数除以文档的词语总数。例如：一篇文档有1000个字，“我”字出现25次，那就是0.025；“Python”出现5次就是0.005。 IDF表示一个词的逆向文档频率指数。可以由总文档数除以包含该词出现的文档数目，然后取对数。例如：有10000个文档，“Python”只出现了10篇文章，则IDF=log(10000/10)=3；“我”字在所有文档都出现过，则IDF为0。词频和权重指数相乘，就是词在文档中的重要程度。可以看出，词语的重要性随它在文档中出现的次数呈正比例增加，但同时会随着它在语料库中出现的频率呈反比下降。实战——文档分类数据导入和TF-IDF 在sklearn中，通过load_files方法可以将子目录的名字转换为文...

2018-07-02

658

【卷首语】建造可以“思考”的城市截止到2017年，中国人口超过千万的城市数量已经达到13个，共计有30个城市的人口总量超过800万，城镇化率达到了历史性的58%，已有超过8亿人生活在城市之中，这是中国经济的高速增长所创造的全球前所未有的城镇化奇迹。中国的城镇化趋势还将持续下去。城市具有集聚经济效应和规模经济效应，这会让城市规模在没有特殊原因的前提下持续膨胀下去，不仅如此，发达国家的城镇化率水平约为80%，随着中国经济的继续增长，中国的城镇化规模以及大城市聚集度都将继续提升。城市确实让生活更美好，但城市越大，所要面临的问题也就越多，交通拥堵、环境恶化、住房紧张、就业困难等随之而来的大城市病，让城市的美好大打折扣，但是，单纯的持续增加公共投资，在电力、通讯、公共交通、给排水、污水和垃圾处理等方面投入重金，对身患或者即将身患

2018-07-02

636

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。