深度强化学习在指代消解中的一种尝试-低调大师

深度强化学习在指代消解中的一种尝试

2018-05-16 640

本文出自斯坦福 NLP 组，发表在 EMNLP 2016，其将深度强化学习应用于指代消解领域是一大创新，相较于其他方法有很好的效果提升。

指代消解是自然语言处理的一大研究领域，常见的指代消解算法多数模型采用启发式损失函数，不同消解任务为达到良好的使用效果需要对调整损失函数超参数。

常见的指代消解算法有 Mention Pair、Mention Rank、Entity Mention 等等，本文将深度强化学习应用于 Mention Rank 实现消解技术的通用性，解决启发式损失函数的超参微调问题。

模型介绍

论文作者将其发表于 ACL 2016 的 Neural Mention-ranking 模型 [1] 进行强化学习的改进。

模型结构

如下图所示，Neural Mention-ranking 模型结构主体部分为多层的前反馈神经网络，分为三个部分：首先是输入层将指代词（mention）特征、候选前指词（Candidate Antecedent）即指代词出现前的词特征、指导词所在句子特征以及其他特征例如距离特征、连接关系特征等等做向量拼接（concate）处理作为模型的输入 h0。

特征的获取过程不是本论文的重点，这里不详细阐述，对特征如何获取感兴趣可以参考 [1]。

隐藏层采用 Relu 作为激活函数，其中隐藏层共 3 层，其公式定义如下：

分数获取层，其采用基本的线性相乘法，公式定义如下：

启发式损失函数

Neural Mention-ranking 模型结构采用一种启发式 Max-Margin 损失函数，Max-Margin 即 Hinge Loss 的一种变种。首先，先看松弛参数 △h 的定义。

其中 C(mi) 表示预测的候选前指词库，T(mi) 表示真实的前指词库，c∈C(mi)，NA 表示为空，FN、FA、WL 依次表示“不为空”、“错误的前指”、“错误连接”。损失函数定义如下，该函数目的是让真实的前指词“分数”更高，错分情况“分数”随着训练不断降低。

其中 ti 表示预测候选词中真实前指词的最高“分”（Score），定义如下。

参数 ɑ 的定义采用人工微调的方式，不断尝试，最终确定最优值。

强化学习对损失函数的改进

论文采用两种强化学习方式改进，一种对超参数的改进，采用强化学习的奖励机制，另一种采用经典的增强策略梯度算法。

论文中将 Neural Mention-ranking 模型当做代理（agent），而每个行为 ai 表示第 i 个指代词的其中一个前指词。Ai 表示第 i 步中所有的候选行为集合即所有第 i 个指代词的所有候选词集合。奖励函数 R(a1:T) 表示第 1 个行动到最后行动的奖励，用 B-cubed 函数 [2] 表示。

1. 奖励衡量机制

这种方式将上述启发式损失函数的松弛参数 △ 进行改进，由于没个行为都是没有关联性、独立的，因此可以通过尝试不同的行为判断每一步奖励差异。因此松弛参数变化如下所示。

这种机制的训练方式和启发式损失函数一致。

2. 经典强化学习方式

除上述奖励衡量机制外，采用经典的增强策略梯度算法，每个行为 a=(c,m) 的概率定义如下。

损失函数定义如下：

为使获得奖励值最大，采用梯度上升法进行参数更新，由于每一次行为选择随着句子的增长指数级增长，因此梯度值计算困难。论文采用一种梯度估值，定义如下所示。

模型实验效果

通过对 CoNLL2012 的英文和中文的指代数据实验，得到测试结果如下图所示，奖励衡量机制效果明显，表现最佳

论文评价

这篇论文发表于 2016 年的 EMNLP，尝试对指代消解的一种神经网络 Mention Rank 模型的启发式损失函数中的超参数利用强化学习方式进行优化，提出一种奖励衡量机制，跟其他方式比效果突出。

这种基于强化学习的奖励衡量机制的超参数调节方式会对很多研究工作产生启发，特别是对超参设置采用尝试性遍历方式的研究工作。可惜论文发表到现在两年时间，在指代消解中利用强化学习的方式没有更好的新的尝试。

原文发布时间为：2018-05-17

本文作者：姜松浩

本文来自云栖社区合作伙伴“PaperWeekly”，了解相关信息可以关注“PaperWeekly”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/593691

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Rockchip RK3399将ai目标检测从嵌入式端带入实用

在人工智能领域中目标检测是非常热门的研究方向，目标检测是指对图片或视频中的目标性物体进行定位并分类。对于机器来说，从RGB像素矩阵中很难直接得到物体的抽象概念并定位，这给AI人工智能应用带来很大的挑战。在CES2018消费电子展上，Rockchip 瑞芯微电子发布了旗下首款智能AI处理器RK3399Pro，同时提供了嵌入式的一站化AI解决方案，满足了来年国产化的高性能使用需求。目前，人工智能技术的主要研发方向为：人脸检测、人体检测、车辆检测、二维码检测及手势识别等，可广泛应用在监控、智能交通、新零售、自然交互等，而这些应用的基础正是目标检测技术。基于深度学习的目标检测技术具有很高的准确性和鲁棒性，但运算量比较大，长期无法在嵌入式设备中取得实际部署和应用。针对AI人工智能市场和技术需求，Rockchip在性能强大的RK3399平台上，对MobileNet SSD网络进行专项优化，使高精度的MobileNet SSD300 1.0运行帧率达到8帧以上，精度略低而速度更快的MobileNet SSD300 0.75的运行帧率超过11帧。在扩展接口上，RK3399Pro也跟上了主流芯...

2018-05-16

770

NM的才刚入门就是一堆数学知识,可见数学才是一切科学的本源.所谓狗屁科学,只不过是数学的一个实例或者是一个近似的表达而已.越接近数学的,离正确性越近. 本人数学基础太垃圾,好在现在有互联网,本人说过,程序员+互联网=超人,有说过吗?有,只不过现在明确提出这个超人定理: 超人定理:超人=程序员+互联网我们再看看其它的算法: 计算机系统=软件+硬件人=肉体+灵魂(就是你大脑里正在运行的程序,或者叫思想) 程序=算法+数据结构程序员=人+程序互联网=数据+知识+数据+知识+数据 + ... 超人=肉体+灵魂+算法+数据结构+数据+知识+数据+知识+... 所以这里的程序员并非一般意义上的程序员,而是指可以具有能力无限应用计算机系统及互联网的人,人的精力,时间是有限的,所

2018-05-16

670

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。