Elasticsearch 通关教程（二）：索引映射Mapping问题

2019-03-18 643

数据库建表的时候，我们的DDL语句一般都会指定每个字段的存储类型，例如：varchar，int，datetime等等，目的很明确，就是更精确的存储数据，防止数据类型格式混乱。

CREATE TABLE `shop_` (
  `id_` varchar(36) NOT NULL COMMENT 'id',
  `shop_name_` varchar(50) DEFAULT NULL COMMENT '商品名称',
  `shop_integral_` int(11) DEFAULT NULL COMMENT '兑换所需积分',
  `shop_money_` decimal(10,0) DEFAULT NULL COMMENT '劵面金额',
  `start_time_` datetime DEFAULT NULL COMMENT '有效开始时间',
  `end_time_` datetime DEFAULT NULL COMMENT '有效结束时间',
  `is_delete_` int(1) DEFAULT '1' COMMENT '是否删除-1：有效，0：删除',
  PRIMARY KEY (`id_`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 ROW_FORMAT=DYNAMIC;

在 Elasticsearch中也是这样，创建索引的时候一般也需要指定索引的字段类型，这种方式成为映射(Mapping)。

字段类型

映射(Mapping)针对的是文档的字段，数据库中有varchar，int，datetime等数据类型，那么我们ElasticSearch中又有哪些字段类型，每个字段类型都代表什么意思呢？

ElasticSearch更新频繁，以下内容是针对6.x版本的，对于5.x版本以及之前的版本可能有所不同，未来7.x版本也许也会有所改变，本篇不能做到面面俱到，所以大家可以针对自己的版本查阅官方文档。

Elasticsearch支持文档字段的多种不同数据类型，根据官方文档的分类，可以划分为以下几个类别：
核心数据类型，复杂数据类型，Geo(地理)数据类型，专用数据类型和多字段。

核心数据类型

字符串类型
主要包括：text 和 keyword。
数字类型
主要包括：long, integer, short, byte, double, float, half_float, scaled_float
日期类型
布尔类型
二进制类型
范围数据类型
integer_range, float_range, long_range, double_range, date_range

这里我们重点介绍下 text 和 keyword 的区别:

text 用于索引全文值的字段，例如电子邮件正文或产品说明。这些字段是analyzed，它们通过分词器传递，以在被索引之前将字符串转换为单个术语的列表。分析过程允许Elasticsearch搜索单个单词中每个完整的文本字段。文本字段不用于排序，很少用于聚合（尽管重要的文本聚合是一个值得注意的例外）。

keyword 用于索引结构化内容的字段，例如电子邮件地址，主机名，状态代码，邮政编码或标签。它们通常用于过滤，排序，和聚合。keyword字段只能按其确切值进行搜索。如果您需要索引电子邮件正文或产品说明等全文内容，则可能应该使用text字段。

有时候一个字段同时拥有全文类型（text）和关键字类型（keyword）是有用的：一个用于全文搜索，另一个用于聚合和排序。这可以通过多字段类型来实现。

复杂数据类型

Geo数据类型

地理点数据类型
geo_point 对于纬度/经度点
Geo-Shape数据类型
geo_shape 对于像多边形这样的复杂形状

专用数据类型

多字段

有时候单纯的一个字段类型满足不了我们复杂的需求，为了不同的目的，以不同的方式索引同一个字段通常很有用。多字段也是ES的一种数据类型，只不过结合了更多的功能。

例如，对于字符串字段，我们既可以将它映射为text类型用于全文搜索，亦可以将它映射为keyword类型用于排序或聚合，或者，还可以使用标准分词器、英语分词器和其他语言分词器索引文本字段。

大多数数据类型都通过fields参数支持多字段。例如对于城市名称的多字段映射，可以这样写：

PUT my_index
{
  "mappings": {
    "_doc": {
      "properties": {
        "cityName": {
          "type": "text",
          "fields": {
            "raw": { 
              "type":  "keyword"
            }
          }
        }
      }
    }
  }
}

Elasticsearch的字段类型讲解完了，我们接下来正式介绍 ES的映射，ES是如何将索引文档和数据类型进行关联的，创建索引前是否必须制定索引文档的数据类型呢？

映射

映射是定义一个文档及其包含的字段如何存储和索引的过程。例如，使用映射来定义：

应将哪些字符串字段视为全文字段。
哪些字段包含数字，日期或地理位置。
是否应将文档中所有字段的值索引到catch-all _all字段中。
日期值的格式。
自定义规则以控制动态添加字段的映射。

其实在 ElasticSearch中可以不需要事先定义映射（Mapping），文档写入ElasticSearch时，会根据文档字段自动识别类型，但是通过这种自动识别的字段不是很精确，对于一些复杂的需要分词的就不适合了。

根据是否自动识别映射类型，我们可以将映射分为动态映射和静态映射。

动态映射，即不事先指定映射类型(Mapping)，文档写入ElasticSearch时，ES会根据文档字段自动识别类型，这种机制称之为动态映射。

静态映射，即人为事先定义好映射，包含文档的各个字段及其类型等，这种方式称之为静态映射，亦可称为显式映射。

动态映射

Elasticsearch最重要的功能之一是它试图摆脱你的方式，让你尽快开始探索你的数据。Elasticsearch试图让你成功安装环境之后就可以直接使用。要索引文档，您不必首先创建索引、定义映射类型和定义字段，其实您只需索引一个文档数据，然后索引、类型和字段将自动生效。

索引一个图书的文档：

PUT /library/book/1
{
  "bookId":1,
  "bookName":"Java核心技术 卷I",
  "publishDate":"2014-03-12"
}

返回结果如下，表示成功

{
  "_index": "library",
  "_type": "book",
  "_id": "1",
  "_version": 1,
  "result": "created",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 0,
  "_primary_term": 1
}

我们看下mapping映射信息

GET library/_mapping

得到如下映射信息，重点关注mapping节点的内容

{
  "library": {
    "mappings": {
      "book": {
        "properties": {
          "bookId": {
            "type": "long"
          },
          "bookName": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "publishDate": {
            "type": "date"
          }
        }
      }
    }
  }
}

可以看到，我们并没有创建索引映射，Elasticsearch自动根据文档数据为我们映射了字段类型，bookId的映射类型为long，bookName的映射类型为多字段的即为text，同时也为keyword，publishDate的映射类型为date。可以看到ES的动态映射功能还是蛮强大的。

默认情况下，当在文档中找到以前未见过的字段时，Elasticsearch会自动将这个新字段添加到类型映射中。我们可以在文档和object级别禁用这项功能，具体操作方式就是通过将dynamic参数设置为false或strict，设为false是忽略新字段，而设为strict是如果遇到未知字段，就抛出异常。

假设启用了动态字段映射功能，则使用一些简单的规则来确定字段应具有的数据类型：

JSON datatype	Elasticsearch datatype
null	没有字段添加
true or false	boolean
integer	long
object	object
array	依赖于数组中首个非空值
string	可以是日期字段、double或long字段，也可以是带有关键字子字段的文本字段。

上面这些是可以动态检测到的字段数据类型，而其他的以外的字段必须要显式映射数据类型了。

对于string字符串字段，动态映射的结果会有多种，可能映射为日期类型，也可能映射为double或long类型，也可能映射为带有关键字的text类型，具体结果要看配置的检测类型，是日期检测还是数字检测。

日期检测
如果date_detection启用（默认），则检查新字符串字段以查看其内容是否与dynamic_date_formats指定的任何日期模式匹配。如果找到匹配项，那么则添加为具有对应格式的date新字段。

默认值为

dynamic_date_formats：[ "strict_date_optional_time"，"yyyy/MM/dd HH:mm:ss Z||yyyy/MM/dd Z"]

例如：

PUT my_index/_doc/1
{
  "create_date": "2015/09/02"
}

通过GET my_index/_mapping得到的结果为：

{
  "my_index": {
    "mappings": {
      "_doc": {
        "properties": {
          "city": {
            "type": "text",
            "fields": {
              "raw": {
                "type": "keyword"
              }
            }
          },
          "create_date": {
            "type": "date",
            "format": "yyyy/MM/dd HH:mm:ss||yyyy/MM/dd||epoch_millis"
          }
        }
      }
    }
  }
}

动态日期检测可以通过设置date_detection为false来禁用:

PUT my_index
{
  "mappings": {
    "_doc": {
      "date_detection": false
    }
  }
}

PUT my_index/_doc/1 
{
  "create": "2015/09/02"
}

禁用之后，重新获取映射类型，得到如下结果：

{
  "my_index": {
    "mappings": {
      "_doc": {
        "date_detection": false,
        "properties": {
          "create": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          }
        }
      }
    }
  }
}

这时，create_date字段已被添加为文本字段。我们也可以自定义检测到的日期格式，通过dynamic_date_formats可以自定义以支持您自己的日期格式:

PUT my_index 
{ 
  "mappings"：{ 
    "_ doc"：{ 
      "dynamic_date_formats"：["MM / dd / yyyy"] 
    } 
  } 
}

数字检测
虽然JSON支持本机浮点和整数数据类型，但某些应用程序或语言有时可能将数字呈现为字符串。通常，正确的解决方案是显式映射这些字段，但可以启用数字检测（默认情况下禁用）以自动执行此操作：

PUT my_index 
{ 
  "mappings"：{ 
    "_ doc"：{ 
      "numeric_detection"：true 
    } 
  } 
} 

PUT my_index / _doc / 1 
{ 
  "my_float"："1.0"，
  "my_integer"："1" 
}

其中my_float字段将添加为float字段，my_integer字段将添加为long字段。

除了上面列出的选项外，还可以进一步自定义动态字段映射规则dynamic_templates，动态模板允许您定义可应用于动态添加字段的自定义映射，具体取决于：

Elasticsearch检测到的数据类型match_mapping_type。
字段的名称，带match和unmatch或match_pattern。
字段的完整虚线路径，带path_match和path_unmatch。

更多具体内容可参考官方文档，Dynamic templates一章这里就不多叙述了。

静态映射(显式映射)

动态映射的自动类型推测功能并不是100%正确的，这就需要静态映射机制。静态映射与关系数据库中创建表语句类型，需要事先指定字段类型。相对于动态映射，静态映射可以添加更加详细字段类型、更精准的配置信息等。

既然可以自定义映射字段类型，那么那些复杂的字段类型和分词器我们都可以根据自己需求添加了，以提供了字段映射使用的各种映射参数的详细说明，这些映射参数对于某些或所有字段数据类型是通用的，内容太多，这里感兴趣的读者可以点击具体链接阅读。

映射参数	说明
analyzer	分析器
normalizer	在 Elasticsearch 中处理字符串类型的数据时，如果我们想把整个字符串作为一个完整的 term 存储，我们通常会将其类型 type 设定为 keyword。但有时这种设定又会给我们带来麻烦，比如同一个数据再写入时由于没有做好清洗，导致大小写不一致，比如 apple、Apple两个实际都是 apple，但当我们去搜索 apple时却无法返回 Apple的文档。要解决这个问题，就需要 Normalizer出场了。
boost	单个字段可以自动提升以计数更多的相关性得分
coerce	强制尝试清除脏值以适合字段的数据类型。数据并不总是干净的，根据它的生成方式，数字可能会在JSON正文中呈现为真正的JSON数字，例如5，但它也可能呈现为字符串，例如"5"。或者，应该是整数的数字可以替代地呈现为浮点，例如5.0，或甚至 "5.0"。
copy_to	copy_to参数允许您创建自定义 _all字段，可以将多个字段的值复制到组字段中，然后可以将其作为单个字段进行查询。
doc_values
dynamic	设置动态映射
enabled	enabled设置只能应用于映射类型和 object字段，导致Elasticsearch完全跳过对字段内容的解析
fielddata
eager_global_ordinals
format	格式化日期
ignore_above
ignore_malformed
index_options
index
fields
norms
null_value	当字段设置为null，（或空数组或null值数组）时，它被视为该字段没有值。不能被索引或搜索
position_increment_gap
properties
search_analyzer
similarity
store
term_vector

微信关注我们

原文链接：https://yq.aliyun.com/articles/694260

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Elasticsearch通关教程（一）：基础入门

简介 Elasticsearch是一个高度可扩展的、开源的、基于 Lucene 的全文搜索和分析引擎。它允许您快速，近实时地存储，搜索和分析大量数据，并支持多租户。 Elasticsearch也使用Java开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的 RESTful API 来隐藏 Lucene 的复杂性，从而让全文搜索变得简单。不过，Elasticsearch 不仅仅是 Lucene 和全文搜索，我们还能这样去描述它：分布式的实时文件存储，每个字段都被索引并可被搜索分布式的实时分析搜索引擎可以扩展到上百台服务器，处理PB级结构化或非结构化数据而且，所有的这些功能被集成到一个服务里面，你的应用可以通过简单的RESTful API、各种语言的客户端甚至命令行与之交互。版本选择在决定使用 Elasticsearch 的时候首先要考虑的是版本问题，Elasticsearch 目前有三个常用的稳定的主版本：2.x，5.x，6.x（排除 0.x 和 1.x）。 Elasticsearch 可以在这里查看所有历史版本，博主写这篇博文的时候最...

2019-03-18

650

Amazon Redshift数据迁移到MaxCompute Amazon Redshift 中的数据迁移到MaxCompute中经常需要先卸载到S3中，再到阿里云对象存储OSS中，大数据计算服务MaxCompute然后再通过外部表的方式直接读取OSS中的数据。如下示意图：前提条件本文以SQL Workbench/J工具来连接Reshift进行案例演示，其中用了Reshift官方的Query editor发现经常报一些奇怪的错误。建议使用SQL Workbench/J。下载Amazon Redshift JDBC驱动程序，推荐4.2https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.16.1027/RedshiftJDBC42-1.2.16.1027.jar 在S

2019-03-18

736

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

Elasticsearch 通关教程（二）：索引映射Mapping问题

字段类型

核心数据类型

复杂数据类型

Geo数据类型

专用数据类型

多字段

映射

动态映射

静态映射(显式映射)

Elasticsearch通关教程（一）：基础入门

Amazon Redshift数据迁移到MaxCompute

相关文章

发表评论

资源下载

Nacos

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！

Elasticsearch 通关教程（二）： 索引映射Mapping问题

字段类型

核心数据类型

复杂数据类型

Geo数据类型

专用数据类型

多字段

映射

动态映射

静态映射(显式映射)

Elasticsearch通关教程（一）： 基础入门

Amazon Redshift数据迁移到MaxCompute

相关文章

发表评论

资源下载

Nacos

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！

Elasticsearch 通关教程（二）：索引映射Mapping问题

Elasticsearch通关教程（一）：基础入门