自然语言处理工具python调用hanlp中文实体识别-低调大师

自然语言处理工具python调用hanlp中文实体识别

2019-02-12 703

Hanlp作为一款重要的中文分词工具，在GitHub的用户量已经非常之高，应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。

想要在python中调用hanlp进行中文实体识别，Ubuntu 16.04的系统环境

1.安装jpype1，在cmd窗口输入

pip install jpype1

2.下载hanlp的安装包

在github.com/hankcs/HanLP/releases

（1）下载新的 hanlp-1.7.1-release.zip文件，里面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties

（2）点击data-for-1.7.1.zip下载。（底下第8条）

注：如果你在hanlp.linrunsoft.com/services.html点击下载hanlp.jar，下载下来的是hanlp-1.2.8.jar。之后在使用过程中可能会出现“字符类型对应表加载失败”的错误，查看相应路径下也没有CharType.dat.yes文件。原因可能是hanlp-1.2.8版本过低，使用新版本应该不会出现这个问题。

3.新建一个文件夹Hanlp，放文件hanlp-1.7.1.jar和hanlp.properties文件

新建一个文件夹hanlp，放data-for-1.7.1.zip解压后的文件

配置hanlp.properties中的第一行的root为hanlp文件夹的位置，也就是data-for-1.7.1.zip解压后的文件放的位置。

4.写py文件调用hanlp进行中文分析。

用法可参考这个博客 blog.csdn.net/u011961856/article/details/77167546。

另，查看HanLP关于实体识别的文档hanlp.linrunsoft.com/doc.html

里面介绍说中文人名标注为“nr”，地名标注为“ns”，机构名标注为“nt”，所以使用用法参考链接里的NLPTokenizer.segment就可以标注出中文句子中的人名，地名和机构名。

比较使用jieba进行词性标注时，也可以标注出中文句子中的人名，地名和机构名。jieba分词的词性说明：

微信关注我们

原文链接：https://yq.aliyun.com/articles/690090

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OSS数据处理最佳实践--文档预览

前言当前整个企业级数据管理市场面临着数字化转型，如何更好的管理数据、挖掘非结构化数据（专业文档、视频、图像等）的价值是当前企业需要解决的问题。阿里云存储开放的数据湖体系引入众多计算引擎。通过阿里云智能媒体管理产品，对象存储OSS面向视频处理应用，图像处理应用，文档处理应用开放了接入能力。目前通过智能媒体管理支持图像识别、人脸检测、视频截帧、图片处理、文档预览、文本检索等多项数据处理能力，为上层应用提供强有力的支持。框架介绍阿里云OSS为在云上的数据打通了一个处理与使用的快速通道。通过简单的 RESTful 接口，可以在任何时间、任何地点、任何互联网设备上对存储在OSS中的数据进行分析处理。数据处理包含以下两种：阿里云OSS原生处理服务阿里云OSS原生处理服务包括图片处理和视频截帧，其中图片处理包括图片的缩略、剪裁、参数调节等， O

2019-02-11

1232

本文旨在介绍如何利用HanLP训练分词模型，包括语料格式、语料预处理、训练接口、输出格式等。目前HanLP内置的训练接口是针对一阶HMM-NGram设计的，另外附带了通用的语料加载工具，可以通过少量代码导出供其他训练工具使用的特定格式（如CRF++）。语料格式输入语料格式为人民日报分词语料库格式。该格式并没有明确的规范，但总体满足以下几点： 1、单词与词性之间使用“/”分割，如华尔街/nsf，且任何单词都必须有词性，包括标点等。 2、单词与单词之间使用空格分割，如美国/nsf 华尔街/nsf 股市/n。 3、支持用[]将多个单词合并为一个复合词，如[纽约/nsf 时报/n]/nz，复合词也必须遵守1和2两点规范。你可以参考OpenCorpus/pku98/199801.txt（作者并无版权，请勿询问）。语料预处理语料预处理指的是将语料加载到内存中，根据需要增删改其中部分词语的一个过程。在HanLP中，这是通过CorpusLoader.walk实现的： CorpusLoader.walk("path/to/your/corpus", new CorpusLoader.Ha...

2019-02-12

576

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。