如何在Elasticsearch中安装中文分词器(IK+pinyin)
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组。 这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入中文的分词器就能解决这个问题。 本篇文章按照下面的内容进行描述: 分词器的作用 安装IK 简单的测试 模拟测试 安装elasticsearch-analysis-pinyin 简单的测试 模拟测试 分词器的作用 分词顾名思义,就是把一句话分成一个一个的词。这个概念在搜索中很重要,比如This is a banana.如果按照普通的空格来分词,分成this,is,a,banana,的出来的a其实对我们并没有什么用处。因此需要注意下面的问题: 1 区分停顿词(a,or,and这种都属于停顿词) 2 大小写转换(Banana与banana) 3 时态的转换.... 具体的算法可以参考http://tartarus.org/~martin/PorterStemmer/,...


