您现在的位置是:首页 > 文章详情

每周一起读 | 多模态专题阅读小组

日期:2017-07-31点击:397

从本周起,PaperWeekly 的多模态小组将开始发起「每周一起读」活动,我们将每周选定一篇优质文章,并提供可撰写读书笔记和在线协同讨论的阅读工具。如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:)



多模态小组招募


本期「每周一起读」,我们将一起精读下文并发起协同交流。参与者需具备多模态(Image Capiton/VQA)方向的研究背景,活动细则详见文末。


An Empirical Study of Language CNN for Image Captioning


文章来源:


https://arxiv.org/abs/1612.07086


推荐理由:


本篇论文提出了用 CNN 模型来对单词序列进行表达,该 CNN 的输入为之前时刻的所有单词,进而可以抓住对生成描述很重要的历史信息。其中总体架构如下图所示:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


该模型主要由四部分组成,用于图像特征提取的 CNN_I,用于自然语言建模的 CNN_L,用于结合 CNN_I 和 CNN_L 信息的多模态层 M,和一个用于单词序列预测的递归神经网络。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

 

总体过程如下:首先利用 CNN_I 提取图像特征,然后 CNN_L 利用之前时刻生成的单词对当前的单词信息进行表达,然后通过多模态层结合图像和单词信息,最后将融合的信息作为递归神经网络的输入来预测一下时刻的单词.该文与之前通过 one-hot 向量,然后经过词嵌入提取词向量的表达方法不同,利用了 CNN 网络来表达单词信息,进而能够很好的抓住过去的历史信息,用于指导当前时刻单词的生成。


来源:paperweekly


原文链接

原文链接:https://yq.aliyun.com/articles/175295
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章