自然语言处理工具HanLP-基于层叠HMM地名识别
本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。
首先说一下上一篇介绍的人名识别效果对比:
- 只有Jieba识别出的人名
准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。举例如下:
[1] 战乱的阿富汗地区,qiang zhi可随意买卖,AK47价格约500人民币
“阿富汗”被识别为人名。
[2] 安庆到桂林自驾游如何规划?
“桂林”被识别为人名。
[3] 2018天津市和平分局招聘社区戒毒、社区康复工作人员成绩查询入口
“康复”被识别为人名。
- 只有HanLP识别出的人名
除了特别常用姓氏的名字识别正确,其他的都识别错误。举例如下:
[1] 纳溪区副区长李明带队到“花田酒地”景区检查节前安全工作
“花田酒”被被识别为人名。
[2] 秀英“线上线下”齐发力 助力贫困户“微互动”拓宽农产品销路
“齐发力”被识别为人名。
[3] 紧急通知:秦报融媒粉团祖山一日游日报名费大调整!
“秦报”被识别为人名。
- HanLP与Jieba都识别出的人名
- 非常用姓氏识别出的人名基本错误。
[1] 房产高管薪酬大起底 万科郁亮年薪1189.9万仅排第二
[2] 生生不息 南通支云发布汶川地震十周年海报呼吁赛前默哀
[3] 为什么伊郎不能有he wu qi,而美国有he wu qi?
- 名字本身构成词时基本错误。
[1] 周口一村庄杨絮着火,对付杨絮用啥方法好呢?
[2] 上联: 三国魏蜀吴,如何对下联?
[3] 上联:灯火辉煌万家乐。求下联?
如何解决这些badcase呢,要看你的时间了,如果时间充裕的话,可以调整发射概率文件也就是nr.txt文件。如果时间不充裕的话,比如我现在的情况,那就只保留常用姓氏,以及特别需要关注的人名了。
上一篇的内容先说到这里,介绍本篇的主题”基于层叠隐马的命名实体识别”我这里主要阅读的是这篇文章《基于层叠隐马尔可夫模型的中文命名实体识别》。层叠就是将模型级联起来的意思,因此系统的结构如下图所示:
如图所示,层叠隐马就是训练三个隐马模型,每个模型标注一种实体,三个模型采用级联形式连接。
不同的实体有不同的角色标注,实际就是特征,这些特征需要有语言学的知识,实际上就是你的阅读量,通过你大量阅读总结经验,比如姓氏可以作为名字的一个特征(张、王、李、赵),常用地名的后缀可以作为一个特征(省、市、区、县),机构名表处所的尾字可以作为一个特征(局、处、所、院)。这里地名的角色标注简表如下所示:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
短视频源码如何选择?必须结合用户特点
2015年短视频APP开始进入人们的视野,但随后的时间一直处于不温不火的状态。直到2018年抖音短视频APP火遍全网,一个全新的短视频时代正式开启。短视频源码也成为众多新入场者关注的重点。选择一款优质的短视频源码,除了考量源码本身的稳定性,功能的完整性也是其中的重要因素,而影响功能的则是平台用户特点。这里,我们从短视频APP用户特点角度,为大家提供一些参考建议。1.用户愿意为娱乐付费早期的短视频APP没有十分清晰的变现方式,导致整个行业一直发展较为缓慢。广告合作成为当下短视频平台最直接的变现方式,“短视频+信息流”成为很多短视频APP的标配。因此,对于短视频源码而言,开屏广告、贴片广告、信息流广告等功能都是必不可少的。除此之外,近年来人们对于付费娱乐的接纳度越来越高,短视频虽然不像传统的长视频那样能够轻松实现内容付费,但是借鉴直播平台打赏思维,也可以在短视频源码开发时加入打赏功能。既然提到了视频直播,如今很多短视频平台也都加入了视频直播模块,这毕竟是一种稳定的变现收益方式。从用户范围和属性等因素分析,直播用户和短视频用户有着高度的重叠性,“短视频+直播”未尝不可。 2.短视频分享引流推...
- 下一篇
奇点云 x 阿里云 | 联合发布综合体数字化转型与数据创新解决方案
2019年7月25日下午,在阿里云峰会上海站,奇点云入选阿里云首批联合解决方案合作伙伴,并联合发布了“综合体数字化转型与数据创新解决方案”,共同探索综合体的智能服务。 关于综合体的数字化转型,奇点云联合创始人兼COO刘莹在演讲中反复提及一个关键点:“构建人铺场「三位一体」生态体系”。 商业综合体本是人、货(铺)、场的有机结合,但现实中却是互相割裂,缺乏数字化切入点,B2B2C模式存在严重的管理问题,刘莹认为主要来自三个方面。 第一、对消费者的洞察犹如盲人摸象,商业综合体对消费者触达能力弱,难以获得他们在场内的行为数据。 第二、商业综合体的角色好比“二房东”,没有直接参与货品的销售,顾客运营。商品管理掌握在品牌商手中,对消费数据的获取缺乏有效手段,对品牌店铺的管控力很弱。 第三、广告投放误打误撞,延用传统广告粗放型营销,顾客转化率低,且无法进行跟踪。 面对“外部竞争激烈,内部管理粗放“的现状,商业综合体的管理实际是两眼一抹黑,内心很焦虑。 商业综合体,出路在哪里? 此次首次亮相的“综合体数字化转型与数据创新解决方案”中,给出了答案。 刘莹在演讲中告知,首先综合体自身要觉醒,角色上要从单纯...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7