【9种】ElasticSearch分词器详解,一文get!!!| 博学谷狂野架构师
ElasticSearch 分词器 作者: 博学谷狂野架构师 只分享干货、不吹水,让我们一起加油!😄 概述 分词器的主要作用将用户输入的一段文本,按照一定逻辑,分析成多个词语的一种工具 什么是分词器 顾名思义,文本分析就是把全文本转换成一系列单词(term/token)的过程,也叫分词。在 ES 中,Analysis 是通过分词器(Analyzer) 来实现的,可使用 ES 内置的分析器或者按需定制化分析器。 举一个分词简单的例子:比如你输入 Mastering Elasticsearch,会自动帮你分成两个单词,一个是 mastering,另一个是 elasticsearch,可以看出单词也被转化成了小写的。 分词器的构成 分词器是专门处理分词的组件,分词器由以下三部分组成: 组成部分 character filter 接收原字符流,通过添加、删除或者替换操作改变原字符流 例如:去除文本中的html标签,或者将罗马数字转换成阿拉伯数字等。一个字符过滤器可以有零个或者多个 tokenizer 简单的说就是将一整段文本拆分成一个个的词。 例如拆分英文,通过空格能将句子拆分成一个个的词,...