基于CRF序列标注的中文依存句法分析器的Java实现
这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8655 sent/s
开源项目
本文代码已集成到HanLP中开源项目中,最新hanlp1.7版本已经发布
CRF简介
CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。在生产中经常使用的训练工具是CRF++,关于CRF++的使用以及模型格式请参阅《CRF++模型格式说明》。
CRF训练
语料库
与《最大熵依存句法分析器的实现》相同,采用清华大学语义依存网络语料的20000句作为训练集。
预处理
依存关系事实上由三个特征构成——起点、终点、关系名称。在本CRF模型中暂时忽略掉关系名称(在下文可以利用其它模型补全)。
根据依存文法理论, 我们可以知道决定两个词之间的依存关系主要有二个因素: 方向和距离。因此我们将类别标签定义为具有如下的形式:
[ + |- ] dPOS
其中, [ + | – ]表示方向, + 表示支配词在句中的位置出现在从属词的后面, – 表示支配词出现在从属词的前面; POS表示支配词具有的词性类别; d表示距离。
比如原树库:
转换后:
特征模板
训练参数
1.crf_learn -f 3 -c 4.0 -p 3 template.txt train.txt model -t
我的试验条件(机器性能)有限,每迭代一次要花5分钟,最后只能设定最大迭代次数为100。经过痛苦的迭代,得到了一个效果非常有限的模型,其serr高达50%,暂时只做算法测试用。
解码
标准的维特比算法假定所有标签都是合法的,但是在本CRF模型中,标签还受到句子的约束。比如最后一个词的标签不可能是+nPos,必须是负数,而且任何词的[+/-]nPos都得保证后面(或前面,当符号为负的时候)有n个词语的标签是Pos。所以我覆写了CRF的维特比tag算法,代码如下:
注意上面的
1.if (!isLegal(j, i, table)) continue;
保证了标签的合法性。
这一步的结果:
后续处理
有了依存的对象,还需要知道这条依存关系到底是哪种具体的名称。我从树库中统计了两个词的词与词性两两组合出现概率,姑且称其为2gram模型,用此模型接受依存边两端的词语,输出其最可能的关系名称。
最终结果
转换为CoNLL格式输出:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Python零基础学习笔记(九)—— 随机数
话不多说,直接上代码 import random #随机数 #1.从序列的元素中随机取出一个数 print(random.choice([1,3,5,7,9])) print(random.choice(["c","a", "b"])) print(random.choice(range(6))) print(random.choice("jjking")) #取字符串之中的一个字母 #生成1-100之间的随机数 r1 = random.choice(range(100))+1 print(r1) #random.randrange([start,] stop[, step]) #start——指定范围开始,包含在范围内,默认是0 #stop——指定范围结束,不包含在范围内 #step——指定的递增基数,默认是1 print(random.randrange(1, 100, 2)) print(random.randrange(1, 100, 3)) #随机生成[0,1)之间的数(浮点数) print(random.random()) list = [1,2,3,4,5] #将list...
- 下一篇
云栖社区Python技术社群建立啦!大家都想听什么?
欢迎大家加入Python中国社区! 听说最近有很多人想转行学python,小编想说,你们的眼光真不错!2017年,Python超越Java成为世界第二大流行语言,用户覆盖1000000 作为最有前途的语言之一,python被越来越多的人群应用,学好python,走天下!还在等什么,快来学习吧! Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。 Python社区入驻了阿里Python资深专家,Python语言的大牛 在这里,你能与专家交流经验、答疑解惑、与同道中人交流互动。 在这里社区会定期进行直播,推送干货 还会有线下活动等你来参加,定期会有阿里定制礼品赠送 还在等什么,快进来玩一玩吧! Pytho
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- 2048小游戏-低调大师作品
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境