Character-Aware Neural Language Models-低调大师

Character-Aware Neural Language Models

2017-07-31 636

本篇分享的文章是Character-Aware Neural Language Models，作者是Yoon Kim、Alexander M. Rush。两位是HarvardNLP组的学生和老师，前者贡献了一些有意义的torch代码，比如seq2seq+attn，后者第一次将seq2seq的模型应用到了文本摘要。

卷积神经网络之前常常用在计算机视觉领域，用来在图像中寻找features，前几年被研究者应用到了nlp任务中，在文本分类等任务中取得了不错的效果。传统的word embedding对低频词并没有太好的效果，而本文将char embedding作为CNN的输入，用CNN的输出经过一层highway层处理表示word embedding，然后作为RNNLM的输入，避免了这个问题。而且之前的神经网络语言模型中绝大多数需要优化的参数是word embedding，而本文的模型则会将优化参数减少非常多。

本文模型的架构图如下：

可以分为三层，一层是charCNN，通过构建一个char embedding矩阵，将word表示成matrix，和图像类似，输入到CNN模型中提取经过filter层和max pooling层得到一个输出表示，然后将该输出放到Highway Network中，得到一个处理后的效果更好的word embedding作为输出，在第三层中是一个典型的RNN模型，后面的处理与传统方法一样了。

这里需要学习的参数中char embedding规模非常小，相对比之前的模型有非常明显的优势。这里需要说明的一点是HighWay Network，在Rupesh Kumar Srivastava的paper Training Very Deep Networks被提出，受lstm解决rnn梯度衰减问题的思路启发，用来解决训练very deep networks，因为模型越深效果越好，但越难训练。本文的HighWay层如下：

其中

t被称为transform gate，1-t被称为carry gate。

最终的实验证明，使用HighWay层效果比使用普通的MLP或者不使用该层效果更好。

本文通过将传统的word embedding降级到char level，避免了大规模的embedding计算和低频词的问题，通过Highway network技术构建更深的网络，得到了不错的结果。

来源：paperweekly

原文链接

微信关注我们

原文链接：https://yq.aliyun.com/articles/175423

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Mellanox公司计划利用系统芯片提升存储产品速度

InfiniBand与以太网适配器厂商Mellanox公司计划利用系统芯片加速存储设备性能，从而经由NVMe架构提供更为出色的外部阵列访问表现。 Mellanox公司CEO Eyal Waldman在其2016年第二季度财报电话会议上谈到了NVMe over Fabrics（简称NVMeF）。该公司的主营项目为InfiniBand与以太网网络设备，同时亦连续第五个季度实现营收增长。 NVMeF是一种将外部NVMe闪存驱动器阵列与服务器对接的方式，其经由网络链路提供与本地闪存驱动器接入方案一致的阵列数据访问能力。目前这类业务供应商包括EMC的DSSD、Mangstor等等。E8公司也将在下个月的闪存记忆体峰会上公布自己的产品。Kaminario与Tegile两家初创企业亦有计划采纳此项技术，而NetApp与Pure Storage则密切关注该技术的最新发展动态。在本次财报会议上，Waldman表示："EZchip与Mellanox之间的合并举措已经在今年2月底收购结束后开始进行。今年第二季度，我们公布了双方联合打造的首款产品，即我们的BlueField多核心系统芯片解决方案。BlueF...

2017-08-01

570

沈阳市大数据局公开招聘110名智慧城市建设信息员，7月7日起至11日报名，引起社会广泛关注，报名网站点击率迅速蹿升。大数据已是当下信息时代一个非常热的概念，大数据时代到来，将给人才发展带来哪些机会？谁将是未来最热门的人才？大数据时代的热门职业都有哪些？让我们一起来看看吧—— 说起大数据，可能你还会觉得云里雾里，实际上，大数据就发生在你我身边，和小编一起先来点入门级的—— 你的通话记录、上网记录，会留在三大电信运营商那里；你的身份、家庭房产信息，会通过刷信用卡而被银行知晓；你去了哪里，现在哪里，又会通过手机定位系统而泄露，百度、腾讯、阿里是目前大数据的主导拥有者和使用者；政府也掌握相应的大数据。通过这些数据都勾勒出你的基本面貌，也就是说，你的一举一动尽在大数据掌控中。亲们，有木有觉得害怕？大数据已深入到日常生活的诸多领域，在许多行业发挥着重要作用。大数据到底有什么用？大数据最重要的功能，是能把未来一些不确定性的东西准确地预测出来。举个例子——2008年，谷歌的一支研发团队利用在网上收集到的海量个人搜索词汇数据，赶在政府流行病学家之前两星期预测了甲型H1N1流感的暴发。这样...

2017-08-01

630

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。