Elasticsearch 默认配置 IK 及 Java AnalyzeRequestBuilder 使用-低调大师

Elasticsearch 默认配置 IK 及 Java AnalyzeRequestBuilder 使用

2017-05-03 553 89

摘要: 原创出处 www.bysocket.com 「泥瓦匠BYSocket 」欢迎转载，保留摘要，谢谢！

『春夏秋冬失去了你，我怎么过一年四季- 民谣歌词』

本文提纲

一、什么是 Elasticsearch-analysis-ik

二、默认配置 IK

三、使用 AnalyzeRequestBuilder 获取分词结果

四、小结

运行环境：JDK 7 或 8、Maven 3.0+、ElasticSearch 2.3.2、Elasticsearch-analysis-ik 1.9.2

技术栈：SpringBoot 1.5+、Spring-data-elasticsearch 2.1.0

前言

在 Elasticsearch 和插件 elasticsearch-head 安装详解 http://www.bysocket.com/?p=1744 文章中，我使用的是 Elasticsearch 5.3.x。这里我改成了 ElasticSearch 2.3.2。是因为版本对应关系 https://github.com/spring-projects/spring-data-elasticsearch/wiki/Spring-Data-Elasticsearch---Spring-Boot---version-matrix：

Spring Boot Version (x) Spring Data Elasticsearch Version (y) Elasticsearch Version (z)

x <= 1.3.5 y <= 1.3.4 z <= 1.7.2*

x >= 1.4.x 2.0.0 <=y < 5.0.0** 2.0.0 <= z < 5.0.0**

* - 只需要你修改下对应的 pom 文件版本号

** - 下一个 ES 的版本会有重大的更新

这里可以看出，5.3.x 不在第二行范围内。因此这里我讲下，如何在 ElasticSearch 2.3.2 中默认配置 IK。

一、什么是 Elasticsearch-analysis-ik

了解什么是 Elasticsearch-analysis-ik，首先了解什么是 IK Analyzer。 IK Analyzer 是基于 lucene 实现的分词开源框架。官方地址： https://code.google.com/p/ik-analyzer/ 。

Elasticsearch-analysis-ik 则是将 IK Analyzer 集成 Elasticsearch 的插件，并支持自定义词典。GitHub 地址： https://github.com/medcl/elasticsearch-analysis-ik。特性支持：

分析器 Analyzer: ik_smart 或 ik_max_word
分词器 Tokenizer: ik_smart 或 ik_max_word

二、默认配置 IK

在 Elasticsearch-analysis-ik 官网中可以看到，其中版本需要对应：

IK版    ES版本
主 5.x -> master
5.3.2    5.3.2
5.2.2    5.2.2
5.1.2    5.1.2
1.10.1    2.4.1
1.9.5    2.3.5
1.8.1    2.2.1
1.7.0    2.1.1
1.5.0    2.0.0
1.2.6    1.0.0
1.2.5    0.90.x
1.1.3    0.20.x
1.0.0    0.16.2 -> 0.19.0

这里使用的是 Elasticsearch-analysis-ik 1.9.2，支持 ElasticSearch 2.3.2。下载地址： https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v1.9.2/elasticsearch-analysis-ik-1.9.2.zip，下载成功后进行安装。

解压 zip 文件，复制里面的内容到 elasticsearch-2.3.2/plugins/ik。

cd  elasticsearch-2.3.2/plugins
mkdir ik
cp ...

在 elasticsearch-2.3.2/config/elasticsearch.yml 增加配置：

index.analysis.analyzer.default.tokenizer : "ik_max_word"
index.analysis.analyzer.default.type: "ik"

配置默认分词器为 ik，并指定分词器为 ik_max_word。

然后重启 ES 即可。验证 IK 是否成功安装，访问下

localhost:9200/_analyze?analyzer=ik&pretty=true&text=泥瓦匠的博客是bysocket.com

可以得到下面的结果集：

{
    "tokens": [
        {
            "token": "泥瓦匠",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "泥",
            "start_offset": 0,
            "end_offset": 1,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "瓦匠",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "匠",
            "start_offset": 2,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "博客",
            "start_offset": 4,
            "end_offset": 6,
            "type": "CN_WORD",
            "position": 4
        },
        {
            "token": "bysocket.com",
            "start_offset": 8,
            "end_offset": 20,
            "type": "LETTER",
            "position": 5
        },
        {
            "token": "bysocket",
            "start_offset": 8,
            "end_offset": 16,
            "type": "ENGLISH",
            "position": 6
        },
        {
            "token": "com",
            "start_offset": 17,
            "end_offset": 20,
            "type": "ENGLISH",
            "position": 7
        }
    ]
}

记得在Docker 容器安装时，需要对应的端口开发。

三、使用 AnalyzeRequestBuilder 获取分词结果

ES 中默认配置 IK 后，通过 Rest HTTP 的方式我们可以进行得到分词结果。那么在 Spring Boot 和提供的客户端依赖 spring-data-elasticsearch 中如何获取到分词结果。

加入依赖 pom.xml

<!-- Spring Boot Elasticsearch 依赖 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>

在 application.properties 配置 ES 的地址：

# ES
spring.data.elasticsearch.repositories.enabled = true
spring.data.elasticsearch.cluster-nodes = 127.0.0.1:9300

然后创建一个方法，入参是搜索词，返回的是分词结果列表。

    @Autowired
    private ElasticsearchTemplate elasticsearchTemplate;

    /**
     * 调用 ES 获取 IK 分词后结果
     *
     * @param searchContent
     * @return
     */
    private List<String> getIkAnalyzeSearchTerms(String searchContent) {
        // 调用 IK 分词分词
        AnalyzeRequestBuilder ikRequest = new AnalyzeRequestBuilder(elasticsearchTemplate.getClient(),
                AnalyzeAction.INSTANCE,"indexName",searchContent);
        ikRequest.setTokenizer("ik");
        List<AnalyzeResponse.AnalyzeToken> ikTokenList = ikRequest.execute().actionGet().getTokens();

        // 循环赋值
        List<String> searchTermList = new ArrayList<>();
        ikTokenList.forEach(ikToken -> { searchTermList.add(ikToken.getTerm()); });

        return searchTermList;
    }

indexName 这里是指在 ES 设置的索引名称。

从容器注入的 ElasticsearchTemplate Bean 中获取 Client ，再通过 AnalyzeRequestBuilder 分析请求类型中进行分词并获取分词结果 AnalyzeResponse.AnalyzeToken 列表。

四、小结

默认配置了 IK 分词器，则 DSL 去 ES 查询时会自动调用 IK 分词。

如果想要自定义词库，比如比较偏的领域性。可以参考 Elasticsearch-analysis-ik GiHub 地址去具体查阅。

推荐开源项目：《 springboot-learning-example》 spring boot 实践学习案例，是 spring boot 初学者及核心技术巩固的最佳实践

欢迎扫一扫我的公众号关注 — 及时得到博客订阅哦！

— http://www.bysocket.com/ —

— https://github.com/JeffLi1993 —

微信关注我们

转载内容版权归作者及来源网站所有！本站原创内容转载请注明来源！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

实用收藏Linux命令备忘

系统操作 #使用shutdown命令马上重启系统[root@H32 ~]# shutdown –r now#使用shutdown命令马上关闭系统[root@H32 ~]# shutdown –h now#使用shutdown命令设置在15分钟以后自动重启系统[root@H32 ~]# shutdown –r +15 显示在线登陆用户who 显示当前操作用户whoami 显示主机名hostname 显示系统信息uname 动态显示当前耗费资源最多进程信息top 开启服务 service ntpd start 查看服务状态 service ntpd status 关闭服务 service ntpd stop 开机自启动 chkconfig ntpd on SSH登陆 ssh root@H31 网络情况查看网络情况ifconfig 测试网络连通ping 显示网络状态信息 netstat -tap | grep mysql 查看端口是否被占用 netstat -ant |grep 3306 查看进程 ps -ef...

532

阿里云数加MaxCompute购买咨询钉钉群

欢迎提交MaxCompute产品工单或者加入“数加·MaxCompute购买咨询”钉钉群（群号11782920）进行咨询，群二维码如下：

720

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。