Elasticsearch集成HanLP分词器
1、通过git下载分词器代码。
连接如下:https://gitee.com/hualongdata/hanlp-ext
hanlp官网如下:http://hanlp.linrunsoft.com/
2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。
官方安装配置说明:https://gradle.org/install/
3、按本地elasticsearch进行打包。
注意:通过git下载的源代码,除非与git配置的版本相同,否则可能会导致你elasticearch无法加载分词器。
修改git下载的源代码包中的elasticsearch版本。并通过gradle进行打包。会自动下载同步elasticsearch对应版本的jar包。
图1
4、按本地环境配置词类位置
图2
5、配置打包的插件所对应支持的elasticesarch的版本。(修改为:5.6.5,es安装的学习环境为5.6.5)
图3
6、完成上述配置把。gradle自动下载对应版本的包。可以通过如下方式进行版本查看。
图4
7、确认对应版本的包存在后,在工程所在目录下执行如下命令进行打包:
gradle -p es-plugin jar buildPluginZip
如下操作:在项目工程目录下,运行命令。
图5
8、打包完成后,会出现对应的安装包。
图6
9、在elasticsearch安装目录下执行插件安装命令。
./bin/elasticsearch-plugininstallfile:///Users/jiangyu/code/git/hanlp-ext/es-plugin/build/distributions/elasticsearch-hanlp-5.6.5.zip
图7
可以看到上面安装完成的提示。有个过程要选择y。
注:如果上向的命令出现如下报错。错误提示如下:
图8
上述错误提示,说明有两个相同的jar包存在。所以有提示,可以先在build.gradle配置中,找到打包的过程,增加一条path.contains("org.apache.logging.log4j")配置,这样打包时,这个jar包不会在被找到插件中。配置修改完成后。从新执行第7步『gradle -p es-plugin jar buildPluginZip』,进重新打包。再重新安装插件即可。
图9
(注:测试时,这个包不能去掉。会导致测试插件时,缺少log4j包)
10、给插件增加访问权限
图10
在系统的elasticsearch的安装目录下,找到config目录,通过vi jvm.options打开文件进行编辑。增加如下内容:用来指定安全配置文件。
图11
11、修改elasticsearch配置,在系统的elasticsearch的安装目录下,找到bin目录,通过vi elasticearch.in.sh打开文件进行编辑。增加如下内容:用来指定安全配置文件。
图12
12、在文件中增加指定的lib包。我们将插件要用到的Lib包路径引入到系统环境变量中。
图13
13、安装完成后可以使用如下命令进行验证。 analyzer,指定分词器为:"hanlp"
GET /_analyze
{
"analyzer" : "hanlp",
"text": ["记录就是用来打破的。你准备好向新的记录发起冲击了吗?"]
}
图14
图15
如果不指定分词器的话。所以返回结果,type没有说明词性,都是按单字返回结果。
GET /_analyze
{
"text": ["记录就是用来打破的。你准备好向新的记录发起冲击了吗?"]
}
图16
参考连接如下:
https://gitee.com/hualongdata/hanlp-ext/tree/master/es-plugin、
其它操作:
如果想移除或删除插件,可以执行如下命令
图17
转载自romil 的博客
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云MaxCompute 2018-09月刊
2018年9月大数据计算服务 MaxCompute 又发布新功能啦! 【新功能】MaxCompute窗口函数支持WINDOW_CLAUSE 参考文档 适用客户 数据开发人员在进行数据开发过程中,用到调用window函数窗口时,SQL里反复写上OVER语句会显得冗余,MaxCompute在该版本中支持WINDOW语句预定义窗口,避免了这一现象。 发布功能 为了避免多次调用window函数窗口时,SQL里反复写上OVER语句会显得冗余,MaxCompute在该版本中支持WINDOW语句预定义窗口。 【新功能】子查询支持SCALAR SUBQUERY 参考文档 适用客户 适用于数据开发人员,在做数据开发时,遇到SUBQUERY的输出结果为单行单列的时候,可以当做标量来使用。 发布功能 MaxCompute SQL 中当SUBQUERY的输出结果为单行单列
- 下一篇
Elasticsearch-单机部署避坑指南
引言 ElasticSearch是一个基于Lucene的搜索引擎,它提供了一个基于RESTful web接口的分布式多用户的全文搜索引擎。ElasticSearch可以用来存储需要检索和统计的数据,它支持聚合、百分比、分段统计等,也可以用来存储日志,例如ELK(Elasticsearch+Logstash+Kibana)日志分析系统。本文主要介绍Elasticsearch的单机部署以及如何解决部署过程中碰到的各种坑。 部署指南 首先进入Elasticsearch官方下载页下载Elasticsearch安装包,笔者下载的是6.4.2的linux版本 download elasticsearch 使用tar命令解压并修改文件【elasticsearch-6.4.2/config/elasticsearch.yml】,修改network这块,将【network.host】修改为部署服务器的IP地址,【http.port】去掉前面的注释【#】。 elasticsearch.yml 使用非root用户运行如下命令 elasticsearch-6.4.2/bin/elasticsearch -...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- 设置Eclipse缩进为4个空格,增强代码规范