听说你还没掌握Normalizer的使用方法？-低调大师

听说你还没掌握Normalizer的使用方法？

2018-09-11 570

在 Elasticsearch 中处理字符串类型的数据时，如果我们想把整个字符串作为一个完整的 term 存储，我们通常会将其类型 type 设定为 keyword。但有时这种设定又会给我们带来麻烦，比如同一个数据再写入时由于没有做好清洗，导致大小写不一致，比如 apple、Apple两个实际都是 apple，但当我们去搜索 apple时却无法返回 Apple的文档。要解决这个问题，就需要 Normalizer出场了。废话不多说，直接上手看！

1. 上手

我们先来重现一下开篇的问题：

PUT test_normalizer
{
  "mappings": {
    "doc":{
      "properties": {
        "type":{
          "type":"keyword"
        }
      }
    }
  }
}

PUT test_normalizer/doc/1
{
  "type":"apple"
}

PUT test_normalizer/doc/2
{
  "type":"Apple"
}

# 查询一 
GET test_normalizer/_search
{
  "query": {
    "match":{
      "type":"apple"
    }
  }
}

# 查询二
GET test_normalizer/_search
{
  "query": {
    "match":{
      "type":"aPple"
    }
  }
}

大家执行后会发现查询一返回了文档1，而查询二没有文档返回，原因如下图所示：

1、Docs写入Elasticsearch时由于 type是 keyword,分词结果为原始字符串；

2、查询 Query 时分词默认是采用和字段写时相同的配置，因此这里也是keyword，因此分词结果也是原始字符；

3、两边的分词进行匹对，便得出了我们上面的结果。

2、Normalizer

normalizer是 keyword的一个属性，可以对 keyword生成的单一 Term再做进一步的处理，比如 lowercase，即做小写变换。使用方法和自定义分词器有些类似，需要自定义，如下所示：


DELETE test_normalizer
# 自定义 normalizer
PUT test_normalizer
{
  "settings": {
    "analysis": {
      "normalizer": {
        "lowercase": {
          "type": "custom",
          "filter": [
            "lowercase"
          ]
        }
      }
    }
  },
  "mappings": {
    "doc": {
      "properties": {
        "type": {
          "type": "keyword"
        },
        "type_normalizer": {
          "type": "keyword",
          "normalizer": "lowercase"
        }
      }
    }
  }
}

PUT test_normalizer/doc/1
{
  "type": "apple",
  "type_normalizer": "apple"
}

PUT test_normalizer/doc/2
{
  "type": "Apple",
  "type_normalizer": "Apple"
}
# 查询三
GET test_normalizer/_search
{
  "query": {
    "term":{
      "type":"aPple"
    }
  }
}

# 查询四
GET test_normalizer/_search
{
  "query": {
    "term":{
      "type_normalizer":"aPple"
    }
  }
}

我们第一步是自定义了名为 lowercase的 normalizer，其中filter 类似自定义分词器中的 filter ，但是可用的种类很少，详情大家可以查看官方文档。然后通过 normalizer属性设定到字段type_normalizer中，然后插入相同的2条文档。执行发现，查询三无结果返回，查询四返回2条文档。

问题解决了！我们来看下是如何解决的：

文档写入时由于加入了 normalizer,所有的 term都会被做小写处理

查询时搜索词同样采用有 normalizer的配置，因此处理后的 term也是小写的

两边分词匹对，就得到了我们上面的结果

3. 总结

本文通过一个实例来给大家讲解了 Normalizer的实际使用场景，希望对大家有所帮助！

原文发布时间为：2018-09-10

本文作者：我的小碗汤

本文来自云栖社区合作伙伴“ 我的小碗汤”，了解相关信息可以关注“ 我的小碗汤”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/638687

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Drill storage plugin实现原理分析

Drill Storage Plugin介绍 Drill是一个交互式SQL查询引擎，官方默认支持的数据源有hive、hbase、kafka、kudu、mongo、opentsdb、jdbc等，其中jdbc storage plugin可以覆盖所有支持jdbc协议的数据源，如：mysql、oracle等关系型数据库。所有数据源的接入都是通过drill的storage plugin实现的，理论上Drill通过storage plugin机制可以支持对任何数据源进行异构查询。 Drill作为一个SQL查询引擎，它跟传统数据库有着很多相似之处，主要包括SQL Parser、SQL Validator、Query Optimizer、Data Flow Operators等几部分。如下图所示，SQL Parser阶段会把SQL语句解析为SQL查

2018-09-11

668

自Sphero宣布Sprk+已经过去大约两年了，Sprk+是一款塑料材质，可编程的，应用程序启用的机器人球，用于编程教育。过去的几个月，该公司与迪士尼合作推出了Ultimate Lightning McQueen，R2D2，BB-9E和Spider-Man等产品，并推出了更便宜，体积更小的Sprk+伴侣 - Sphero Mini，这款伴侣产品更少关注教育，更多关注游戏和活动。 9月10日，这家总部位于科罗拉多州丹佛市的创业公司Sphero从其Skunkworks实验室推出了Spark Bolt，这是一款经过升级的Sprk +，带有一些新的铃声和口哨声。根据联合创始人兼首席架构师亚当威尔逊的说法，该产品表现了Sphero对教育领域的重视。他说，已有超过20,000所学校将公司的产品纳入其课程。 “在过去的两年里，我们学会了如何打造一个新特色，”威尔逊在电话采访中告诉记者，“我们的产品一直都提供可编程功能。当然如果你不想对其编程，你可以选择不编程。我们鼓励你玩这些功能，因为Bolt有更深入的编程组件。“ Bolt拥有防紫外线透明塑料外壳，具有防水和“高度耐用”的特点，可点击传感器包括磁...

2018-09-11

632

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。