Character-Aware Neural Language Models
本篇分享的文章是Character-Aware Neural Language Models,作者是Yoon Kim、Alexander M. Rush。两位是HarvardNLP组的学生和老师,前者贡献了一些有意义的torch代码,比如seq2seq+attn,后者第一次将seq2seq的模型应用到了文本摘要。
卷积神经网络之前常常用在计算机视觉领域,用来在图像中寻找features,前几年被研究者应用到了nlp任务中,在文本分类等任务中取得了不错的效果。传统的word embedding对低频词并没有太好的效果,而本文将char embedding作为CNN的输入,用CNN的输出经过一层highway层处理表示word embedding,然后作为RNNLM的输入,避免了这个问题。而且之前的神经网络语言模型中绝大多数需要优化的参数是word embedding,而本文的模型则会将优化参数减少非常多。
本文模型的架构图如下:
可以分为三层,一层是charCNN,通过构建一个char embedding矩阵,将word表示成matrix,和图像类似,输入到CNN模型中提取经过filter层和max pooling层得到一个输出表示,然后将该输出放到Highway Network中,得到一个处理后的效果更好的word embedding作为输出,在第三层中是一个典型的RNN模型,后面的处理与传统方法一样了。
这里需要学习的参数中char embedding规模非常小,相对比之前的模型有非常明显的优势。这里需要说明的一点是HighWay Network,在Rupesh Kumar Srivastava的paper Training Very Deep Networks被提出,受lstm解决rnn梯度衰减问题的思路启发,用来解决训练very deep networks,因为模型越深效果越好,但越难训练。本文的HighWay层如下:
其中
t被称为transform gate,1-t被称为carry gate。
最终的实验证明,使用HighWay层效果比使用普通的MLP或者不使用该层效果更好。
本文通过将传统的word embedding降级到char level,避免了大规模的embedding计算和低频词的问题,通过Highway network技术构建更深的网络,得到了不错的结果。
来源:paperweekly
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Mellanox公司计划利用系统芯片提升存储产品速度
InfiniBand与以太网适配器厂商Mellanox公司计划利用系统芯片加速存储设备性能,从而经由NVMe架构提供更为出色的外部阵列访问表现。 Mellanox公司CEO Eyal Waldman在其2016年第二季度财报电话会议上谈到了NVMe over Fabrics(简称NVMeF)。该公司的主营项目为InfiniBand与以太网网络设备,同时亦连续第五个季度实现营收增长。 NVMeF是一种将外部NVMe闪存驱动器阵列与服务器对接的方式,其经由网络链路提供与本地闪存驱动器接入方案一致的阵列数据访问能力。目前这类业务供应商包括EMC的DSSD、Mangstor等等。E8公司也将在下个月的闪存记忆体峰会上公布自己的产品。Kaminario与Tegile两家初创企业亦有计划采纳此项技术,而NetApp与Pure Storage则密切关注该技术的最新发展动态。 在本次财报会议上,Waldman表示:"EZchip与Mellanox之间的合并举措已经在今年2月底收购结束后开始进行。今年第二季度,我们公布了双方联合打造的首款产品,即我们的BlueField多核心系统芯片解决方案。BlueF...
-
下一篇
数据分析师?架构师?科学家?大数据时代的热门职业
沈阳市大数据局公开招聘110名智慧城市建设信息员,7月7日起至11日报名,引起社会广泛关注,报名网站点击率迅速蹿升。 大数据已是当下信息时代一个非常热的概念,大数据时代到来,将给人才发展带来哪些机会?谁将是未来最热门的人才?大数据时代的热门职业都有哪些?让我们一起来看看吧—— 说起大数据,可能你还会觉得云里雾里,实际上,大数据就发生在你我身边,和小编一起先来点入门级的—— 你的通话记录、上网记录,会留在三大电信运营商那里; 你的身份、家庭房产信息,会通过刷信用卡而被银行知晓; 你去了哪里,现在哪里,又会通过手机定位系统而泄露,百度、腾讯、阿里是目前大数据的主导拥有者和使用者; 政府也掌握相应的大数据。通过这些数据都勾勒出你的基本面貌,也就是说,你的一举一动尽在大数据掌控中。亲们,有木有觉得害怕? 大数据已深入到日常生活的诸多领域,在许多行业发挥着重要作用。 大数据到底有什么用? 大数据最重要的功能,是能把未来一些不确定性的东西准确地预测出来。 举个例子——2008年,谷歌的一支研发团队利用在网上收集到的海量个人搜索词汇数据,赶在政府流行病学家之前两星期预测了甲型H1N1流感的暴发。这样...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- MySQL数据库中FOR UPDATE的使用
- MySQL数据库在高并发下的优化方案
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7

微信收款码
支付宝收款码