首页 文章 精选 留言 我的

精选列表

搜索[java],共10000篇文章
优秀的个人博客,低调大师

Elasticsearch 默认配置 IK 及 Java AnalyzeRequestBuilder 使用

摘要: 原创出处 www.bysocket.com 「泥瓦匠BYSocket 」欢迎转载,保留摘要,谢谢! 『 春夏秋冬失去了你,我怎么过一年四季-民谣歌词 』 本文提纲 一、什么是 Elasticsearch-analysis-ik 二、默认配置 IK 三、使用AnalyzeRequestBuilder 获取分词结果 四、小结 运行环境:JDK 7 或 8、Maven 3.0+、ElasticSearch 2.3.2、Elasticsearch-analysis-ik 1.9.2 技术栈:SpringBoot 1.5+、Spring-data-elasticsearch 2.1.0 前言 在 Elasticsearch 和插件 elasticsearch-head 安装详解 http://www.bysocket.com/?p=1744文章中,我使用的是 Elasticsearch 5.3.x。这里我改成了ElasticSearch 2.3.2。是因为版本对应关系 https://github.com/spring-projects/spring-data-elasticsearch/wiki/Spring-Data-Elasticsearch---Spring-Boot---version-matrix: Spring Boot Version (x) Spring Data Elasticsearch Version (y) Elasticsearch Version (z) x <= 1.3.5 y <= 1.3.4 z <= 1.7.2* x >= 1.4.x 2.0.0 <=y < 5.0.0** 2.0.0 <= z < 5.0.0** * - 只需要你修改下对应的 pom 文件版本号 ** - 下一个 ES 的版本会有重大的更新 这里可以看出,5.3.x 不在第二行范围内。因此这里我讲下,如何在 ElasticSearch 2.3.2 中默认配置 IK。 一、什么是 Elasticsearch-analysis-ik 了解什么是 Elasticsearch-analysis-ik,首先了解什么是 IK Analyzer。 IK Analyzer是基于 lucene 实现的分词开源框架。官方地址: https://code.google.com/p/ik-analyzer/。 Elasticsearch-analysis-ik 则是将 IK Analyzer集成Elasticsearch 的插件,并支持自定义词典。GitHub 地址: https://github.com/medcl/elasticsearch-analysis-ik。特性支持: 分析器 Analyzer: ik_smart 或 ik_max_word 分词器 Tokenizer: ik_smart 或 ik_max_word 二、默认配置 IK 在Elasticsearch-analysis-ik 官网中可以看到,其中版本需要对应: IK版 ES版本 主 5.x -> master 5.3.2 5.3.2 5.2.2 5.2.2 5.1.2 5.1.2 1.10.1 2.4.1 1.9.5 2.3.5 1.8.1 2.2.1 1.7.0 2.1.1 1.5.0 2.0.0 1.2.6 1.0.0 1.2.5 0.90.x 1.1.3 0.20.x 1.0.0 0.16.2 -> 0.19.0 这里使用的是Elasticsearch-analysis-ik 1.9.2,支持 ElasticSearch 2.3.2。下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v1.9.2/elasticsearch-analysis-ik-1.9.2.zip,下载成功后进行安装。 解压 zip 文件,复制里面的内容到elasticsearch-2.3.2/plugins/ik。 cdelasticsearch-2.3.2/plugins mkdir ik cp ... 在elasticsearch-2.3.2/config/elasticsearch.yml 增加配置: index.analysis.analyzer.default.tokenizer : "ik_max_word" index.analysis.analyzer.default.type: "ik" 配置默认分词器为 ik,并指定分词器为ik_max_word。 然后重启 ES 即可。验证 IK 是否成功安装,访问下 localhost:9200/_analyze?analyzer=ik&pretty=true&text=泥瓦匠的博客是bysocket.com 可以得到下面的结果集: { "tokens": [ { "token": "泥瓦匠", "start_offset": 0, "end_offset": 3, "type": "CN_WORD", "position": 0 }, { "token": "泥", "start_offset": 0, "end_offset": 1, "type": "CN_WORD", "position": 1 }, { "token": "瓦匠", "start_offset": 1, "end_offset": 3, "type": "CN_WORD", "position": 2 }, { "token": "匠", "start_offset": 2, "end_offset": 3, "type": "CN_WORD", "position": 3 }, { "token": "博客", "start_offset": 4, "end_offset": 6, "type": "CN_WORD", "position": 4 }, { "token": "bysocket.com", "start_offset": 8, "end_offset": 20, "type": "LETTER", "position": 5 }, { "token": "bysocket", "start_offset": 8, "end_offset": 16, "type": "ENGLISH", "position": 6 }, { "token": "com", "start_offset": 17, "end_offset": 20, "type": "ENGLISH", "position": 7 } ] } 记得在Docker 容器安装时,需要对应的端口开发。 三、使用AnalyzeRequestBuilder 获取分词结果 ES 中默认配置 IK 后,通过 Rest HTTP 的方式我们可以进行得到分词结果。那么在 Spring Boot 和提供的客户端依赖 spring-data-elasticsearch 中如何获取到分词结果。 加入依赖 pom.xml <!-- Spring Boot Elasticsearch 依赖 --> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-elasticsearch</artifactId> </dependency> 在application.properties 配置 ES 的地址: # ES spring.data.elasticsearch.repositories.enabled = true spring.data.elasticsearch.cluster-nodes = 127.0.0.1:9300 然后创建一个方法,入参是搜索词,返回的是分词结果列表。 @Autowired private ElasticsearchTemplate elasticsearchTemplate; /** * 调用 ES 获取 IK 分词后结果 * * @param searchContent * @return */ private List<String> getIkAnalyzeSearchTerms(String searchContent) { // 调用 IK 分词分词 AnalyzeRequestBuilder ikRequest = new AnalyzeRequestBuilder(elasticsearchTemplate.getClient(), AnalyzeAction.INSTANCE,"indexName",searchContent); ikRequest.setTokenizer("ik"); List<AnalyzeResponse.AnalyzeToken> ikTokenList = ikRequest.execute().actionGet().getTokens(); // 循环赋值 List<String> searchTermList = new ArrayList<>(); ikTokenList.forEach(ikToken -> { searchTermList.add(ikToken.getTerm()); }); return searchTermList; } indexName 这里是指在 ES 设置的索引名称。 从容器注入的ElasticsearchTemplate Bean 中获取 Client ,再通过AnalyzeRequestBuilder 分析请求类型中进行分词并获取分词结果AnalyzeResponse.AnalyzeToken 列表。 四、小结 默认配置了 IK 分词器,则 DSL 去 ES 查询时会自动调用 IK 分词。 如果想要自定义词库,比如比较偏的领域性。可以参考Elasticsearch-analysis-ik GiHub 地址去具体查阅。 推荐开源项目:《 springboot-learning-example》 spring boot 实践学习案例,是 spring boot 初学者及核心技术巩固的最佳实践 欢迎扫一扫我的公众号关注 — 及时得到博客订阅哦! — http://www.bysocket.com/ — — https://github.com/JeffLi1993 —

优秀的个人博客,低调大师

使用Java Api 对HBase进行简单操作

/** * 功能:测试Hbase基本的增删改查操作 * Created by liuhuichao on 2016/12/5. */ public class HbaseCRUDTest { public static Configuration configuration; static{ configuration= HBaseConfiguration.create(); configuration.set("hbase.zookeeper.quorum","lhc-centos"); } /** * 测试创建student表:测试已通过 * @throws IOException */ @Test public void createTable() throws IOException { HBaseAdmin admin=new HBaseAdmin(configuration); //HBaseAdmin负责管理HBase集群,添加和丢弃表 if(admin.tableExists("studentInfo")){ System.out.println("student表已经存在"); return; } HTableDescriptor descriptor=new HTableDescriptor("studentInfo"); descriptor.addFamily(new HColumnDescriptor("Name"));//创建列族,名字是Name descriptor.addFamily(new HColumnDescriptor("Address"));//创建列族,名字是Address admin.createTable(descriptor); //创建表 System.out.println("student表创建成功!!!"); } /** * 功能:想hbase中插入一行记录 --测试已通过 * @throws IOException */ @Test public void insertHbaseStudentTable() throws IOException { HTable table=new HTable(configuration, Bytes.toBytes("studentInfo")); Put put=new Put(Bytes.toBytes("1")); put.addColumn(Bytes.toBytes("Name"),Bytes.toBytes("firstName"),Bytes.toBytes("liu")); put.addColumn(Bytes.toBytes("Name"),Bytes.toBytes("secondName"),Bytes.toBytes("huichao")); put.addColumn(Bytes.toBytes("Address"),Bytes.toBytes("province"),Bytes.toBytes("hebei")); put.addColumn(Bytes.toBytes("Address"),Bytes.toBytes("city"),Bytes.toBytes("baoding")); put.addColumn(Bytes.toBytes("Address"),Bytes.toBytes("area"),Bytes.toBytes("qingyuan")); table.put(put); } /** * 功能:根据行健获取数据 * @throws IOException */ @Test public void getDataByRowKey() throws IOException { HTable table=new HTable(configuration, Bytes.toBytes("studentInfo")); Get get=new Get(Bytes.toBytes("1")); Result result=table.get(get); for(KeyValue kv :result.list()){ System.out.println("family:"+Bytes.toString(kv.getFamilyArray()));//所属列族名称 System.out.println("qualifier:"+Bytes.toString(kv.getQualifier()));//列名称 System.out.println("value:"+Bytes.toString(kv.getValue()));//存储的值 System.out.println("Timestamp:"+kv.getTimestamp());//获取时间戳 } } /** * 功能:测试全表扫描 * @throws IOException */ @Test public void selectHBaseScan() throws IOException { HTable table=new HTable(configuration, Bytes.toBytes("studentInfo")); /*遍历查询*/ Scan scan=new Scan(); ResultScanner rs=null; try { rs=table.getScanner(scan); for(Result result : rs){ for(KeyValue kv : result.list()){ System.out.println("family:"+Bytes.toString(kv.getFamilyArray()));//所属列族名称 System.out.println("qualifier:"+Bytes.toString(kv.getQualifier()));//列名称 System.out.println("value:"+Bytes.toString(kv.getValue()));//存储的值 System.out.println("Timestamp:"+kv.getTimestamp());//获取时间戳 } } }finally { rs.close(); } } /** * 更新 * @throws Exception */ @Test public void updateHBase() throws Exception{ HTable table=new HTable(configuration,Bytes.toBytes("studentInfo")); Put put=new Put(Bytes.toBytes("1")); //设置行健 put.add(Bytes.toBytes("Address"),Bytes.toBytes("city"),Bytes.toBytes("beijing"));///更新的时候找对族名和列名,再给定新的value值就可以了 table.put(put); } /** * 功能:查询nickname的多个(本示例为2个)版本值. * @throws Exception */ @Test public void selectSomeVersion() throws Exception{ HTable table=new HTable(configuration,Bytes.toBytes("studentInfo")); Get get=new Get(Bytes.toBytes("1")); get.addColumn(Bytes.toBytes("Address"),Bytes.toBytes("city")); // get.setMaxVersions(3); List<KeyValue> results=table.get(get).list(); int total=results.size(); System.out.println("Address列族中city列的各个版本值"); for(int i=0;i<total;i++){ System.out.println(Bytes.toString(results.get(i).getValue())); } } /** * 功能:删除指定的某一行 * @throws Exception */ @Test public void deleteColumn() throws Exception{ HTable table = new HTable(configuration, Bytes.toBytes("studentInfo"));//HTabel负责跟记录相关的操作如增删改查等 Delete deleteAll = new Delete(Bytes.toBytes("1")); table.delete(deleteAll); } /** * 功能:删除表 * @throws Exception */ @Test public void deleteTable() throws Exception{ HBaseAdmin admin=new HBaseAdmin(configuration); //HBaseAdmin负责管理HBase集群,添加和丢弃表 admin.disableTable("student"); admin.deleteTable("student"); } }

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册