HanLP Analysis for Elasticsearch-低调大师

HanLP Analysis for Elasticsearch

2019-04-21 611

基于 HanLP 的 Elasticsearch 中文分词插件，核心功能：

兼容 ES 5.x-7.x；

内置词典，无需额外配置即可使用；

支持用户自定义词典；

支持远程词典热更新（待开发）；

内置多种分词模式，适合不同场景；

拼音过滤器（待开发）；

简繁体转换过滤器（待开发）。

版本

插件版本和 ES 版本一致，直接下载对应版本的插件进行安装即可。

·插件开发完成时，最新版本已经为 6.5.2 了，所以个人只对典型的版本进行了测试；

·5.X 在 5.0.0、5.5.0 版本进行了测试；

·6.X 在 6.0.0、6.3.0、6.4.1、6.5.1 版本进行了测试；

·7.X 在 7.0.0 版本进行了测试。

安装使用

下载编译

git clone 对应版本的代码，打开 pom.xml 文件，修改 <elasticsearch.version>6.5.1</elasticsearch.version> 为需要的 ES 版本；然后使用 mvn package 生产打包文件，最终文件在 target/release 文件夹下。

打包完成后，使用离线方式安装即可。

使用默认词典

·在线安装：.\elasticsearch-plugin install https://github.com/AnyListen/elasticsearch-analysis-hanlp/releases/download/vA.B.C/elasticsearch-analysis-hanlp-A.B.C.zip

·离线安装：.\elasticsearch-plugin install file:///FILE_PATH/elasticsearch-analysis-hanlp-A.B.C.zip

离线安装请把 FILE_PATH 更改为 zip 文件路径；A、B、C 对应的是 ES 版本号。

使用自定义词典

默认词典是精简版的词典，能够满足基本需求，但是无法使用感知机和 CRF 等基于模型的分词器。

HanLP 提供了更加完整的词典，请按需下载。

词典下载后，解压到任意目录，然后修改插件安装目录下的 hanlp.properties 文件，只需修改第一行

root=D:/JavaProjects/HanLP/

为 data 的父目录即可，比如 data 目录是 /Users/hankcs/Documents/data，那么 root=/Users/hankcs/Documents/。

使用自定义配置文件

如果你在其他地方使用了 HanLP，希望能够复用 hanlp.properties 文件，你只需要修改插件安装目录下的 plugin.properties 文件，将 configPath 配置为已有的 hanlp.properties 文件地址即可。

内置分词器

分析器(Analysis)

·hanlp_index：细粒度切分

·hanlp_smart：常规切分

·hanlp_nlp：命名实体识别

·hanlp_per：感知机分词

·hanlp_crf：CRF分词

·hanlp：自定义

分词器(Tokenizer)

·hanlp_index：细粒度切分

·hanlp_smart：常规切分

·hanlp_nlp：命名实体识别

·hanlp_per：感知机分词

·hanlp_crf：CRF分词

·hanlp：自定义

自定义分词器

插件有较为丰富的选项允许用户自定义分词器，下面是可用的配置项：

案例展示：

# 创建自定义分词器

PUT my_index

{

"settings": {

"analysis": {

"analyzer": {

"my_analyzer": {

"type": "hanlp",

"algorithm": "viterbi",

"enableIndexMode": "true",

"enableCustomDictionary": "true",

"customDictionaryPath": "",

"enableCustomDictionaryForcing": "false",

"enableStopWord": "true",

"stopWordDictionaryPath": "",

"enableNumberQuantifierRecognize": "true",

"enableNameRecognize": "true",

"enableTranslatedNameRecognize": "true",

"enableJapaneseNameRecognize": "true",

"enableOrganizationRecognize": "true",

"enablePlaceRecognize": "true",

"enableTraditionalChineseMode": "false"

}

# 测试分词器

POST my_index/_analyze

{

"analyzer": "my_analyzer",

"text": "张惠妹在上海市举办演唱会啦"

}

分词速度（仅供参考）

借助 _analyze API（1核1G单线程），通过改变分词器类型，对 2W 字的文本进行分词，以下为从请求到返回的耗时：

46508cb37751adf46052310fa9c67d444a2baca8

微信关注我们

原文链接：https://yq.aliyun.com/articles/699272

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

LocalFlinkMiniCluster启动DataStream任务的流程

LocalFlinkMiniCluster 集群的actor 模型相关的主要类图如下： AkkaRpcActor持有一个rpcEndpoint成员，接收到消息后进行基础解析后调用rpcEndpoint的的对应方法来进行处理。其中RpcGateway及RpcEndPoint的类图支持的消息类型其中主要使用RpcInvocation基于反射调用RPCEndpoint的对应函数 FencedMessage 将message进行封装成payload，通过fencingToken进行校验，保证请求的合法性 LocalFlinkMiniCluster集群的角色 ResouceManager 负责容器的分配使用FencedAkkaRpcActor实现，其rpcEndpoint为 org.apache.flink.runtime.resourcemanag

2019-04-21

768

整理的大数据学习思路第一阶段：linux系统本阶段为大数据学习入门基础课程，帮大家进入大数据领取打好Linux基础，以便更好的学习Hadoop、habse、NoSQL、saprk、storm等众多技术要点。另：目前企业中无疑例外是使用Linux来搭建或部署项目的第二阶段：大型网站高并发处理本阶段的学习是为了让大家能够了解大数据的源头，数据从而而来，继而更好的了解大数据。通过学习处理大型网站高并发问题反向的更加深入的学习Linux，同事站在了更高的角度去触探架构第三阶段：Hadoop学习 1、Hadoop分布式文件系统：HDFS 详细解剖HDFS，了解其工作原理，打好学习大数据的基础 2、Hadoop分布式计算框架：MapReduce MapReduce可以说是任何一家大数据公司都会用到的计算框架，也是每个大数据工程师应该熟练掌握的 3、Hadoop离线体系：Hive hive是使用SQL尽心计算的Hadoop框架，工作中经常会使用，也是面授的重点 4、Hadoop离线计算体系：HBASE HBASE的重要性不言而喻，即便是工作多年的大数据工程师也是需要去重点学习HBASE性...

2019-04-21

573

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。