您现在的位置是:首页 > 文章详情

HanLP-基于HMM-Viterbi的人名识别原理介绍

日期:2019-07-23点击:356

Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章分享给大家交流学习之用,部分内容有做修改。

_

本文主要介绍一下HanLP是如何利用HMM来做人名识别的。基本思想是把词语序列作为观测序列,将角色序列作为隐藏序列,当模型预测出最佳隐藏状态序列后,利用模式最大匹配法,匹配出人名实体。下边说一模型的三要素在这个应用中所对应的内容,因为训练阶段就是要求解这三个要素的值。
假设有下边的观测序列和其对应的隐藏序列

观察值序列:词1 词2 … 词n
隐变量序列:角色1 角色2 … 角色n
训练阶段:统计三个要素(三个矩阵的元素值)
初始概率分布:
_1

各隐变量标记意义列于下表
_2

状态转移概率分布:
_3

观测概率分布:
_4

有关这些概率值的计算都很简单,就是频率法,留在后边介绍隐马时候再写。
预测阶段:
根据训练得到的三个要素,利用Viterbi算法求解得到了最优隐藏变量序列 角色1 角色2 ... 角色n*
最大模式匹配阶段:
利用下边的模式串匹配出人名
{ BBCD, BBE, BBZ, BCD, BEE,BE,BG,BXD,BZ,CD,EE,FB, Y,XD}
基于HMM-Viterbi标注的人名识别原理就介绍到这里,我想我应该把原理说清楚了,如果你还没有看明白,就等着后续的有关隐马的文章吧。基于隐马的人名识别会很容把以一个姓氏作为开头的词语识别为人名,特别是地名中有人名字的,因此,人工整理出一些非常用姓氏的人名,以及一些地名是必要的,后续如果整理出来了,我应该会放到专栏文章里,毕竟都是公开语料上做的,也就不涉及什么别的不方便。

原文链接:https://yq.aliyun.com/articles/710502
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章