《中国人工智能学会通讯》——7.5 应 用
7.5 应 用
通过组合,产生不同粒度语言单元的(向量)表示方式,然后通过在向量空间中的运算,就可以支撑多种多样的应用。例如想要识别两个句子是否互为复述(Paraphrase),就可以使用以上任意一种神经网络结构,将两个句子分别表示为两个向量,并通过在其之上再构建神经网络构成二元分类器的方式,判断两个向量之间是否互为复述[9] ;然后通过反向传播(Back Propagation)算法,就可以学习获得三个神经网络的参数。
另外,两个单元也可以是不同的粒度,如完形填空,空白处的上下文可以使用神经网络表示为向量,候选词也可以使用向量表示,然后同样使用另一个神经网络模型判断它们之间是否匹配,从而判断填入该词是否合适。
这种以向量的形式表示,然后再计算的思想可以扩展为多种语言,从而实现机器翻译等功能。对于机器翻译,我们首先将源语言表示为向量,该向量代表了源语言的语义信息;然后根据该向量,逐词的生成目标语言[10] 。这套方法又称为编码 - 解码(Encoder-Decoder)或者序列到序列(seq2seq,sequence to sequence)的框架。现实情况中,很难用一个向量表示源语言全部信息,所以在生成一个目标语言词时,如果能有其对应的源语言词作为输入,则生成的词会更准确。由于两种语言之间的词并非一一对应,所以很难判断当前的目标语言的词是由那个源语言生成的,于是人们设计出注意力(Attention)机制[11] ,即当前目标语言的词是全部源语言的词经过加权求和后的向量及前一个目标词的隐含层向量(h t -1)共同生成的,每个权重由 h t -1和每个源语言词的隐层向量(h s )共同决定,源语言的词权重越大,说明其对生成该目标语言的贡献越大,这其实也隐含说明这两个词越对齐。
以上的这种 seq2seq 思想又可以进一步应用于更多的自然语言处理任务中,如抽象式文摘(Abstractive Summarization)这一前人很难触及的任务。传统的文摘研究多集中于抽取式文摘(Extractive Summarization),即从篇章中摘取重要的句子组成文摘,而缺乏有效的手段能够将句子打破。基于 seq2seq 技术,就可以将原文表示为一个向量,然后通过该向量,逐词的生成连贯的文摘,从而不受限于必须抽取原文中的句子。
再进一步将该思想进行扩展,是否也可以将图片或者视频表示为向量,然后在生成对应的文字描述?这正是图像字幕生成(Image CaptionGeneration)这一非常有趣的研究任务所采用的基本思想,其中图像的向量可以由卷积神经网络来生成[12] 。
另外,一些传统的自然语言处理任务,如词性标注、句法语义分析等也都受益于深度学习方法。以基于转移的句法分析器为例,该方法使用一系列由初始到终止的状态(State 或 Configuration)表示句法分析的过程,一个状态经过一个转移动作(Action),如移进(Shift)或归约(Reduce),变为一个新的状态。我们的目的就是要学习一个分类器,其输入为一个状态,输出为该状态下最可能的动作。具体介绍可以参见 Google 最新发布的 SyntaxNet 文档1 。传统的方法通过抽取一系列人工定义的特征来表示状态,即分类的依据,如栈(Stack)顶的词、词性,缓存(Buffer)顶的词、词性以及各种特征组合等。显然,这种人工定义特征的方式存在特征定义不完备等问题。因此可以采用任一种神经网络结构,如LSTM循环神经网络[13] ,更全面地表示一个状态,从而省去了繁琐的特征定义过程,并能够获得更好的分类效果。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
《中国人工智能学会通讯》——7.4 语义组合
7.4 语义组合 分布式词表示的思想可以进一步扩展,即通过组合(Composition)的方式来表示短语、句子,甚至是篇章等更大粒度的语言单元。目前主要通过三种神经网络结构来实现不同的组合方式,即循环神经网络(顺序组合)、卷积神经网络(局部组合)和递归神经网络(根据句法结构进行组合) [8] 。下面以句子“我 喜欢 红 苹果”为例,说明不同组合方式的基本原理及其优缺点,具体可以参见图 1 中“深度学习”部分。 循 环 神 经 网 络(RNN,Recurrent NeuralNetwork)从左至右顺序地对句子中的单元进行两两组合,首先将“我”和“喜欢”组合,生成隐层h 1 ;然后将 h 1 与“红”进行组合,生成 h 2 ,以此类推。传统的循环神经网络模型存在严重的梯度消失(Vanishing Gradient)或者梯度爆炸(ExplodingGradient)问题,尤其是当句子较长,即网络的层数较多时。深度学习中一些常用的技术,如使用ReLU 激活函数、正则化,以及恰当的初始化权重参数等都可以部分解决这一问题。另一类更好的解决方案是减小网络的层数,以 LSTM 和 GRU 等为代表的...
- 下一篇
《中国人工智能学会通讯》——4.13 采用关联滤波器的卷积神经网络
4.13 采用关联滤波器的卷积神经网络 经典的卷积神经网络模型[1] (CNN), 大体上是由若干个卷积神经层堆叠构成的深度多层次神经网络模型,由于其在图像识别[2] 、视频分类 [3]等计算机视觉领域中所展现的优异性能,CNN 的拓展应用及其优化研究越来越受到广泛关注。 和传统单隐藏层神经网络不同,卷积神经层中的神经元被有序地组织成一张张特征图。相应的,神经元间的关联权值则构成了滤波器(filter),因为卷积层中特征图与卷积核的矩阵卷积本质是对输入特征图进行空域滤波。这种处理能够提取蕴含在输入特征图中多种的视觉特征。单就输出特征图中的某一个神经元而言,它的输出值由线性滤波器与输入特征图中一个小邻域里的神经元进行内积得到。CNN 的这种神经元与神经元的局部连接,与猫视觉系统中神经细胞具有局部敏感性(localsensitive)的发现[4]相一致。 作为卷积神经层中唯一可以被训练的权值,滤波器在提取包括边缘、角点、端点等视觉特征时发挥主要作用。这些被感知到的局部特征在输出特征图中进一步组合生成更抽象的特征,继而被后续的卷积层进一步提取。在大部分情况下,CNN 都是使用随机梯度下降(s...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19