elasticsearch使用指南之Elasticsearch Dynamic Mapping(动态映射机制)-低调大师

elasticsearch使用指南之Elasticsearch Dynamic Mapping(动态映射机制)

2019-03-23 899

作者简介：《RocketMQ技术内幕》作者、中间件兴趣圈微信公众号维护者

ElasticSearch Mapping(映射)目录：
elasticsearch使用指南之Elasticsearch Mapping类型映射概述与元字段类型

Elasticsearch使用指南之Elasticsearch Mapping parameters(主要参数一览)

Elasticsearch与关系型数据库的另外一个不同就是索引下的的类型中的字段可以动态创建，无需在使用之前先创建好，支持在索引的过程中动态添加。这种机制也得意于Elasticsearch的动态映射机制，能根据字段的值动态猜测字段的类型，从而建立索引映射。
本节将重点介绍Elasticsearch动态映射机制。

PUT data/_doc/1 
{ "count": 5 }

执行上述请求时，索引"data"不必预先创建，该API会首先会自动创建索引data、类型映射_doc，其映射类型下包含字段count，其类型为long。自动为类型映射根据文档的值推测其类型的过程，就是本文要重点描述的机制：动态类型映射机制。动态映射机制包含如下两种映射规则：

Dynamic field mappings
Dynamic templates

接下来就分别介绍上述两种动态映射规则。

1、Dynamic field mappings
动态字段映射规则。默认情况下，当在文档中发现以前未见过的字段时，Elasticsearch将向类型映射添加新字段。通过将映射参数dynamic 设置为false(忽略新字段)或strict(遇到未知字段时抛出异常)，可以在文档和对象级别禁用此行为。

JSON datatype	Elasticsearch datatype
null	不会自动增加类型映射
true or false	boolean
floating point number	float
integer	long
object	object
array	根据数组中第一个非空值来判断
string	date、double、long、text(带有keyword子字段)

1.1 Date detection
日期类型检测，如果启用了date_detection(默认)，那么将检查新字符串字段，以查看它们的内容是否匹配dynamic_date_format中指定的任何日期模式。如果匹配其中任意一种格式，则添加字段映射时，字段的类型为date，并指定日期的format为匹配的模式。例如：

PUT my_index/_doc/1
{
  "create_date": "2015/09/02"
}

则会为create_date字段在json中的类型是字符串，但如果date_detection=true，则能映射为date字段。
可以在类型_type级别设置是否开启日期类型检测(date_detection)，示例如下：

PUT my_index
{
  "mappings": {
    "_doc": {
      "date_detection": false
    }
  }
}

1.2 定制日期类型检测格式
可以通过类型级别(_type)级别通过dynamic_date_formats参数来自定义日期检测格式，示例如下：

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_date_formats": ["MM/dd/yyyy"]
    }
  }
}

PUT my_index/_doc/1
{
  "create_date": "09/25/2015"
}

1.3 numeric detection
数字类型检测。同样如果数字类型的值在JSON中是用字符串表示的话，如果开启日期类型检测，同样在创建映射时会映射为数字类型，而不是字符串类型。

PUT my_index
{
  "mappings": {
    "_doc": {
      "numeric_detection": true
    }
  }
}

默认情况下，numeric_detection为false。

2、Dynamic templates
Dynamic field mappings默认情况下是根据elasticsearch支持的数据类型来推测参数值的类型，而动态模板允许您定义自定义映射规则，根据自定义的规则来推测字段值所属的类型，从而添加字段类型映射。
动态映射模板通过如下方式进行定义：

"dynamic_templates": [      // @1
    {
      "my_template_name": {    // @2
        ...  match conditions ...    // @3
        "mapping": { ... }              // @4
      }
    },
    ...
  ]

代码@1：在类型映射时通过dynamic_templates属性定义动态映射模板，其类型为数组。
代码@2：定义动态映射模板名称。
代码@3：匹配条件，其定义方式包括：match_mapping_type, match, match_pattern, unmatch, path_match, path_unmatch。
代码@4：匹配@3的字段使用的类型映射定义（映射参数为类型映射中支持的参数）

动态类型映射模板的核心关键是匹配条件与类型映射，接下来按照匹配条件定义方式来重点讲解动态类型模板映射机制。

2.1、match_mapping_type
首先使用json解析器解析字段值的类型，由于JSON不能区分long和integer，也不允许区分double和float，所以它总是选择更广泛的数据类型，例如5，在使用字段动态映射时，elasticsearch会将字段动态映射为long而不是integer类型，那如何将数字5动态映射为integer类型呢，利用match_mapping_type可以实现上述需求，例如，如果希望将所有整数字段映射为整数而不是long，并将所有字符串字段映射为文本和关键字，可以使用以下模板:

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "integers": {
            "match_mapping_type": "long",
            "mapping": {
              "type": "integer"
            }
          }
        },
        {
          "strings": {
            "match_mapping_type": "string",
            "mapping": {
              "type": "text",
              "fields": {
                "raw": {
                  "type":  "keyword",
                  "ignore_above": 256
                }
              }
            }
          }
        }
      ]
    }
  }
}

一言以蔽之，match_mapping_type为字段动态映射(字段类型检测)得出的类型建立一个映射关系，将该类型转换为mapping定义中的类型。

2.2、match and unmatch
match参数使用模式匹配字段名，而unmatch使用模式排除匹配匹配的字段。
match、unmatch示例如下：

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "longs_as_strings": {
            "match_mapping_type": "string",   // @1
            "match":   "long_*",                        // @2
            "unmatch": "*_text",                       // @3
            "mapping": {                                  // @4
              "type": "long"
            }
          }
        }
      ]
    }
  }
}
PUT my_index/_doc/1
{
  "long_num": "5",       // @5
  "long_text": "foo"      // @6
}

代码@1：表示该自动映射模板针对的字段为JSON解析器检测字段的类型为string的新增字段。
代码@2：字段名称以long_开头的字段。
代码@3：排除字段名称以_text的字段。
代码@4：符合long_开头的字段，并且不是以_text结尾的字段，如果JSON检测为string类型的新字段，映射为long。
代码@5：long_num，映射类型为long。
代码@6：long_text虽然也满足long_开头，但是以_text结尾，故该字段不会映射为long，而是保留其JSON检测到的类型string，会映射为text字段和keyword多字段(参考字段动态映射机制)。

2.3、match_pattern
使用正则表达式来匹配字段名称。

"dynamic_templates": [
  {
    "longs_as_strings": {
       "match_mapping_type": "string",  
    "match_pattern": "regex",   // @1
       "match": "^profit_\d+$"       // @2
       "mapping": {                                  
           "type": "long"
        }
    }
  }
]

代码@1：设置匹配模式为regex代表java正则表达式
代码@2：java正则表达式

2.4、path_match and path_unmatch
path_match与path_unmatch的工作方式与match、unmatch一样，只不过path_match是针对字段的全路径，特别是针对嵌套类型(object、nested)。
下面一个示例：将name下的字段除了middle字段为copy到name属性并列的full_name字段中。

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "copy_full_name": {
            "path_match":   "name.*",
            "path_unmatch": "*.middle",
            "mapping": {
              "type":       "text",
              "copy_to":    "full_name"
            }
          }
        }
      ]
    }
  }
}
PUT my_index/_doc/1
{
  "name": {
    "first":  "Alice",
    "middle": "Mary",
    "last":   "White"
  }
}

2.5、{name} and {dynamic_type}
{name}展位符，表示字段的名称。
{dynamic_type}:JSON解析器解析到的字段类型。

PUT my_index
{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "named_analyzers": {                           // @1
            "match_mapping_type": "string",
            "match": "*",
            "mapping": {
              "type": "text",
              "analyzer": "{name}"
            }
          }
        },
        {
          "no_doc_values": {                         // @2
            "match_mapping_type":"*",
            "mapping": {
              "type": "{dynamic_type}",
              "doc_values": false
            }
          }
        }
      ]
    }
  }
}

PUT my_index/_doc/1
{
  "english": "Some English text", 
  "count":   5 
}

代码@1：映射模板的含义为：对所有匹配到的字符串类型，类型映射为text，对应的分析器的名称与字段名相同，这个在使用时慎重，可能不存在同名的分析器，本例只是一个展示。
代码@2：对于匹配到的任何类型，其映射定义为类型为自动检测的类型，并且禁用doc_values=false。

本节详细介绍了Elasticsearch动态类型映射机制。

微信关注我们

原文链接：https://yq.aliyun.com/articles/695065

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据(一) - hadoop生态系统及版本演化

大数据系列文章汇总链接 - 更新到15篇 HDFS：分布式存储系统（Hadoop Distributed File System）：提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google的GFS论文 (发表于2003年10月)，是GFS克隆版YARN：资源管理系统（Yet Another Resource Negotiator）：负责集群资源的统一管理和调度，Hadoop 2.0新增系统，使得多种计算框架可以运行在一个集群中MapReduce：分布式计算框架：具有易于编程、高容错性和高扩展性等优点 MapReduce源自于Google的MapReduce论文（发表于2004年12月），是Google MapReduce克隆版 Hive：由facebook开源，基于MR的数据仓库，数据计算使用MR，数据存储使用HDFS，Hive 定义了一种类 SQL 查询语言——HQL：类似SQL，但不完全相同日志分析：统计网站一个时间段内的pv、uvPig：由yahoo！开源，构建在Hadoop之上的数据仓库 Mahout：数据挖掘库，基于Hadoo...

2019-03-22

697

1.教育背景88％的数据科学家受过高等教育且拥有硕士学位，其中46％拥有博士学位。虽然有些人是例外，但通常需要非常强大的教育背景才能拥有成为数据科学家所必需的知识深度。要想成为数据科学家，你可以先获得计算机科学、社会科学、物理科学和统计学的学士学位，最常见的是数学和统计学（32％），其次是计算机科学（19％）和工程学（16％），任何这些课程的学位都可以为你提供处理和分析大数据所需的技能。完成学位课程后，大多数数据科学家还进行在线培训，例如学习如何使用Hadoop或大数据查询等特殊技能。除课堂学习外，你还可以通过构建应用程序或探索数据分析来练习你在课堂上学到的知识，以便你了解更多信息。2.R编程对于数据科学家来说，R的至少是所有分析工具最应该深入了解工具，因为R专为满足数据科学需求而设计。你可以使用R来解决数据科学中遇到的任何问题，

2019-03-23

683

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。