HanLP分词命名实体提取详解-低调大师

HanLP分词命名实体提取详解

2019-01-10 668

分享一篇大神的关于hanlp分词命名实体提取的经验文章，文章中分享的内容略有一段时间（使用的hanlp版本比较老），最新一版的hanlp已经出来了，也可以去看看新版的hanlp在这方面有何提升！

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。对于文本来说，由于语言组织形式各异，表达方式多样，文本里面提到的很多要素，如人名、手机号、组织名、地名等都称之为实体。在工程领域，招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体，能有效提高工作效率和挖掘实体之间的潜在联系。

文本预处理

1、文本清洗

目前，大部分招中标项目信息都是发布在各个网站上，所以我们获取的主要是网络文本。网页中存在很多与文本内容无关的信息，比如广告，导航栏，html、js代码，注释等等。文本清洗，就是通过正则匹配去掉这些干扰信息，抽取出干净的文本内容。

2、中文分词

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。一篇文本中不是所有词都很重要，我们只需找出起到关键作用、决定文本主要内容的词进行分析即可。目前几大主流的分词技术可移步到这篇博客中：中文分词技术小结、几大分词引擎的介绍与比较

笔者采用的是HanLP分词工具。

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能：

中文分词

1.最短路分词（Dijkstra精度已经足够，且速度比N最短快几倍）

2.N-最短路分词（与Dijkstra对比，D已够用）

3.CRF分词（对新词较有效）

4.索引分词（长词切分，索引所有可能词）

5.极速词典分词（速度快，精度一般）

6.用户自定义词典

7.标准分词（HMM-Viterbi）

命名实体识别

1.实体机构名识别（层叠HMM-Viterbi）

2.中国人名识别（HMM-Viterbi）

3.音译人名识别（层叠隐马模型）

4.日本人名识别（层叠隐马模型）

5.地名识别（HMM-Viterbi）

篇章理解

1.关键词提取（ TextRank关键词提取）

2.自动摘要( TextRank自动摘要,提取关键句子)

3.短语提取（基于互信息和左右信息熵的短语提取）

简繁拼音转换

1.拼音转换（多音字，声母，韵母，声调）

2.简繁转换（繁体中文分词，简繁分歧词）

智能推荐

1.文本推荐（句子级别，从一系列句子中挑出与输入句子/词语最相似的那一句）

2.语义距离（基于《同义词词林扩展版》）

命名实体提取

HanLP分词提供词性标注的功能，所以调用分词接口后获得带有词性标注的单词集合。例如：

String word = "河南大明建设工程管理有限公司受林州市水土保持生态建设管理局委托，

林州市合涧镇刘家凹小流域2017年省级水土保持补偿费项目进行了公开招标";

List<Term> termList= HanLP.segment( word );

System.out.println(termList.toString());

得到的输出结果为：

[河南/ns, 大明/nz, 建设工程/nz, 管理/vn, 有限公司/nis, 受/v, 林州市/ns, 水土保持/gg, 生态/n, 建设/vn, 管理局/nis, 委托/vn, ，/w, 就/d, 林州市/ns, 合涧镇/ns, 刘家凹/nr, 小流域/nz, 2017/m, 年/qt, 省级/b, 水土保持/gg, 补偿费/n, 项目/n, 进行/vn, 了/ule, 公开招标/v]

每个词性代表什么可以参考 HanLP词性标注集

招中标项目文本样式多变、内容复杂，我们无法直接定位文本中的某一位置来提取实体。小编采用基于统计和基于规则相融合的机器学习方法。

首先，统计这些实体出现的前后文单词和词性，并考虑他们之间的联系，概括出特定实体前后出现的高频词汇。

其次，利用这些高频词汇构建出“前文+特定实体+后文”的规则。

最后，利用这一规则在全文中进行模式匹配。利用投票原理，对匹配度高的规则分配高分，相反，匹配度低的规则赋予低分。然后，对所有匹配的规则进行分数排序，得到投票分数最高的规则，并从规则中剥离出特定实体，这个实体即为我们的目标实体。

例如，招标单位的提取，我们统计出改实体出现的前文频率较高的为：招标人、招标单位、建设单位、采购人、采购单位、业主等，后文为：委托、招标等。通常出现这些词汇的前后就是招标单位。然后我们再根据这个词的词性，判断它是否属于机构名、团体名。如果是机构团体名，则判定该单词为招标单位名称。这样，就可以获得我们需要的实体。其他实体的提取与此类似。

如下图：我们获得的文本是网络片段

去除标签、杂数据，得到的纯文本为：

调用HanLP分词接口，得到下图的分词列表：

1.Â Segment segment = HanLP.newSegment().enableOrganizationRecognize(true);

2. List<Term> termList = segment.seg(content);

最后，根据“前文+特定实体+后文”正则匹配，得出提取的实体，如下图：

技术实施流程图

作者：XiaoXiao_Yang77

微信关注我们

原文链接：https://yq.aliyun.com/articles/686250

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

揭秘人工智能（系列）：深度学习是否过分夸大？

2012年左右，多伦多大学的研究人员首次使用深度学习来赢下了ImageNet，它是一项非常受欢迎的计算机图像识别竞赛。对于那些参与AI行业的人来说，这是一个大问题，因为计算机视觉是使计算机能够理解图像背景的学科，也是人工智能中最具挑战性的领域之一。当然，与任何其他产生巨大影响的技术一样，深度学习成为炒作的焦点。不同的公司和组织开始应用它来解决不同的问题（或假装应用它）。许多公司开始使用深度学习和先进的人工智能技术重塑其产品和服务。与此同时，媒体也经常撰写有关人工智能和深度学习的故事，这些故事充满误导性，并且大多是由那些对技术运作方式没有正确理解的人撰写。他们大多使用关于人工智能的耸人听闻的头条来博眼球，这些也促成了围绕深度学习的炒作。经过媒体的炒作后，许多专家认为深度学习被夸大了，它最终会消退并可能导致另一个人工智能冬季，从而使人

2019-01-09

713

随着新零售产业和互联网的飞速发展，网购似乎已经变成了我们生活中一项必不可少的“仪式”。那日常网购剁手的大家一定能感受到近几年阿里旗下的各大网购平台的在商业规范，商品质量和用户评价等方面的水平都有很大提升，事实上也确实如此。日前，阿里巴巴官方发布了一则阿里巴巴旗下电商产业在2018年全年的年度报告数据显示，2018年阿里整体在商业规范和假货防治等方面相较往年都有很大提升，综合2018年用户的购买和反馈记录来看，相较于2017年，经消费者举报而被清除的疑似假货链接比例下降了70个百分点，每万份订单中被判定为疑似假货的比例下降了26个百分点，也就是说，2018年每一万份订单中仅有1.11笔订单是疑似假货。能在当前这个线上商家数量日益增多，网购市场越发混杂的大环境中，将商品假货比率控制在万分之一这个概率极低的状态下，阿里在背后所付出的努力不可小觑。近年来，为尽可能地防止假货出现，阿里研发了生物实人认证，图像识别算法，商品大脑，假货甄别模型等9大“专业打假黑科技”，而后为保护平台知识产权，阿里又相继开发了直播防控体系，商家全景视图，语义情感分析等3项技术，截止到现在，阿里已经拥有了12项黑科...

2019-01-12

611

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。