Elasticsearch——分词器对String的作用
关于String类型——分词与不分词 在Elasticsearch中String是最基本的数据类型,如果不是数字或者标准格式的日期等这种很明显的类型,其他的一般都会优先默认存储成String。同样的数据类型,Elasticsearch也提供了多种存储与分词的模式,不同的模式应用于不同的场景。 很多人在初次使用Elasticsearch时,都会很纳闷... 为什么我存储的一句话,却查询不到? 为什么我输入了汉语单词,只能一个字一个字的匹配? 为什么我的url查询不到? 等等,这些都与是否分词、使用什么分词器有关。 首先说说什么是分词器吧! 比如我爱你中国! 如果是标准分词器,会把它拆分成,“我”,“爱”,“你”,“中”,“国”。 如果使用一些汉语的分词器,则会分析成,“我”,“爱”,“你”,“中国”。 由于倒排索引都是以词Term为索引的,因此如果分解成了一个一个的词,查询“中国”的时候,中国也会被分解成“中”,“国”,这样就可能误差到”发展中国家“这样的词。 再说说Elasticsearch中的分词器吧! 不光是在索引文档(把数据导入到Elasticsearch中),在查询的时候也需要...