ElasticSearch入门第六篇：复合数据类型——数组，对象和嵌套-低调大师

ElasticSearch入门第六篇：复合数据类型——数组，对象和嵌套

2013-05-15 862

这是ElasticSearch 2.4 版本系列的第六篇：

在ElasticSearch中，使用JSON结构来存储数据，一个Key/Value对是JSON的一个字段，而Value可以是基础数据类型，也可以是数组，文档（也叫对象），或文档数组，因此，每个JSON文档都内在地具有层次结构。复合数据类型是指数组类型，对象类型和嵌套类型，各个类型的特点分别是：

数组字段是指一个字段有多个值，每个值都是该数组字段的一个元素；元素的类型可以是基础类型，也可以是文档类型；
对象类型是指字段的值是一个JSON文档；
嵌套字段是指对象类型的一个特殊版本，ElasticSearch引擎在内部把嵌套字段索引成单个文档。如果在嵌套字段中定义对象数组，那么对象数组中的每个元素（文档）都被索引成单个文档，每个文档都能被独立地查询。

一，对象类型

JSON文档是有层次结构的，一个文档可能包含其他文档，如果一个文档包含其他文档，那么该文档值是对象类型，其数据类型是对象，ElasticSearch默认把文档的属性type设置为object，即"type":"object"。

例如，在创建索引映时，定义name字段为对象类型，不需要显式定义type属性值，其默认值是object：

"manager":{  
   "properties":{  
      "age":{ "type":"integer"},
      "name":{  
         "properties":{  
            "first":{"type":"string"},
            "last":{ "type":"string"}
         }
      }
   }
}

默认情况下，上述文档类型被索引为以点号命名的数据结构，把层次结构展开之后，数据结构是由扁平的key/value对构成：

{
  "manager.age":        30,
  "manager.name.first": "John",
  "manager.name.last":  "Smith"
}

二，开箱即用的数组类型

在ElasticSearch中，没有专门的数组（Array）数据类型，但是，在默认情况下，任意一个字段都可以包含0或多个值，这意味着每个字段默认都是数组类型，只不过，数组类型的各个元素值的数据类型必须相同。在ElasticSearch中，数组是开箱即用的（out of box），不需要进行任何配置，就可以直接使用。

1，数组类型

在同一个数组中，数组元素的数据类型是相同的，ElasticSearch不支持元素为多个数据类型：[ 10, "some string" ]，常用的数组类型是：

字符数组: [ "one", "two" ]
整数数组: productid:[ 1, 2 ]
对象（文档）数组: "user":[ { "name": "Mary", "age": 12 }, { "name": "John", "age": 10 }]，ElasticSearch内部把对象数组展开为 {"user.name": ["Mary", "John"], "user.age": [12,10]}

对于文档数组，每个元素都是结构相同的文档，文档之间都不是独立的，在文档数组中，不能独立于其他文档而去查询单个文档，这是因为，一个文档的内部字段之间的关联被移除，各个文档共同构成对象数组。

对整数数组进行查询，例如，使用多词条（terms）查询类型，查询productid为1和2的文档：

{  
   "query":{  
      "terms":{  
         "productid":[ 1, 2 ]
      }
   }
}

2，对象数组

通过PUT动词，自动创建索引和文档类型，在文档中创建对象数组：

PUT my_index/my_type/1
{
  "group" : "fans",
  "user" : [ 
    {
      "first" : "John",
      "last" :  "Smith"
    },
    {
      "first" : "Alice",
      "last" :  "White"
    }
  ]
}

ElasticSearch引擎内部把对象数组展开成扁平的数据结构，把上例的文档类型的数据结构展开之后，文档数据类似于：

{
  "group" :        "fans",
  "user.first" : [ "alice", "john" ],
  "user.last" :  [ "smith", "white" ]
}

字段 user.first 和 user.last 被展开成数组字段，但是，这样展开之后，单个文档内部的字段之间的关联就会丢失，在该例中，展开的文档数据丢失first和last字段之间的关联，比如，Alice 和 white 的关联就丢失了。

三，嵌套数据类型

嵌套数据类型是对象数据类型的特殊版本，它允许对象数组中的各个对象被索引，数组中的各个对象之间保持独立，能够对每一个文档进行单独查询，这就意味着，嵌套数据类型保留文档的内部之间的关联，ElasticSearch引擎内部使用不同的方式处理嵌套数据类型和对象数组的方式，对于嵌套数据类型，ElasticSearch把数组中的每一个嵌套文档（Nested Document）索引为单个文档，这些文档是隐藏（Hidden）的，文档之间是相互独立的，但是，保留文档的内部字段之间的关联，使用嵌套查询（Nested Query）能够独立于其他文档而去查询单个文档。在创建嵌套数据类型的字段时，需要设置字段的type属性为nested。

1，在索引映射中创建嵌套字段

设置user字段为嵌套数据类型，由于每个字段默认都可以是数组类型，因此，嵌套字段也可以是对象数组。

"mappings":{  
   "my_type":{  
      "properties":{  
         "group":{ "type":"string"},
         "user":{  
            "type":"nested",
            "properties":{  
               "first":{ "type":"string"},
               "second":{  "type":"string"}
            }
         }
      }
   }
}

2，为嵌套字段赋值

为嵌套字段赋予多个值，那么ElasticSearch自动把字段值转换为数组类型。

PUT my_index/my_type/1
{
  "group" : "fans",
  "user" : [ 
    { "first" : "John", "last" :  "Smith"},
    { "first" : "Alice", "last" :  "White"}
  ]
}

在ElasticSearch内部，嵌套的文档（Nested Documents）被索引为很多独立的隐藏文档（separate documents），这些隐藏文档只能通过嵌套查询（Nested Query）访问。每一个嵌套的文档都是嵌套字段（文档数组）的一个元素。嵌套文档的内部字段之间的关联被ElasticSearch引擎保留，而嵌套文档之间是相互独立的。在该例中，ElasticSearch引起保留Alice和White之间的关联，而John和White之间是没有任何关联的。

默认情况下，每个索引最多创建50个嵌套文档，可以通过索引设置选项：index.mapping.nested_fields.limit 修改默认的限制。

Indexing a document with 100 nested fields actually indexes 101 documents as each nested document is indexed as a separate document.

四，嵌套查询

嵌套查询用于查询嵌套对象，执行嵌套查询执行的条件是：嵌套对象被索引为单个文档，查询作用在根文档（Root Parent）上。嵌套查询由关键字“nested”指定：

"nested" : {
        "path" : "obj1",
        "query" : {...}

1，必须赋值的参数：

path参数：指定嵌套字段的文档路径，根路径是顶层的文档，通过点号“.”来指定嵌套文档的路径；
query参数：在匹配路径（参数path）的嵌套文档上执行查询，query参数指定对嵌套文档执行的查询条件。

2，使用嵌套查询访问嵌套文档

GET my_index/_search
{
  "query": {
    "nested": {
      "path": "user",
      "query": {
        "bool": {
          "must": [
            { "match": { "user.first": "Alice" }},
            { "match": { "user.last":  "White" }} 
          ]
        }
      }
    }
  }
}

五，使用C#索引数组类型

1，创建ElasticSearch的索引映射

{  
   "settings":{  
      "number_of_shards":5,
      "number_of_replicas":0
   },
   "mappings":{  
      "events":{  
        "dynamic":"false",
         "properties":{  
            "eventid":{  
               "type":"long",
               "store":true,
               "index":"not_analyzed"
            },
            "eventname":{  
               "type":"string",
               "store":true,
               "index":"analyzed",
               "fields":{  
                  "raw":{  
                     "type":"string",
                     "store":true,
                     "index":"not_analyzed"
                  }
               }
            },
            "topics":{  
               "type":"integer",
               "store":true,
               "index":"analyzed"
            }
         }
      }
   }
}

View Code

对于topics字段，类型是integer，赋予其一组整数值[1,2,3]，那么该字段就能存储数组。

"topics":{  
    "type":"integer",
    "store":true,
    "index":"analyzed"
}

2，创建数据模型（Data Model）

为数组字段定义为List类型，每个列表项的数据类型是int。

public class EventBase
{
    public long eventid { get; set; }
}

public class EbrieEvents:EventBase
{
    public string eventname { get; set; }
    public List<int> topics { get; set; }
}

3，为字段赋值

为List字段topics赋值，调用NEST对该文档进行索引

EbrieEvents pb = new EbrieEvents();

//Topics List
List<string> strTopics = TableRow["Topics"].ToString().TrimEnd(',').Split(',').ToList();
List<int> topics = new List<int>();
foreach(string str in strTopics)
{
    topics.Add(int.Parse(str));
}
pb.topics = topics;

4，查询数组字段

{  
   "query":{  
      "terms":{  
         "topics":[1001,487]
      }
   }
}

参考文档：

Elasticsearch Reference [2.4] » Mapping » Field datatypes

Elasticsearch Reference [2.4] » Query DSL » Joining queries » Nested Query

本文转自悦光阴博客园博客，原文链接：http://www.cnblogs.com/ljhdo/p/4904430.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/386093

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

storm在淘宝

由于storm的内核是clojure编写的(不过大部分的拓展工作都是java编写的)，为我们理解它的实现带来了一定的困难，好在大部分情况下storm都比较稳定，当然我们也在尽力熟悉clojure的世界。我们在使用storm时通常都是选择java语言开发应用程序。在淘宝，storm被广泛用来进行实时日志处理，出现在实时统计、实时风控、实时推荐等场景中。一般来说，我们从类kafka的metaQ或者基于hbase的timetunnel中读取实时日志消息，经过一系列处理，最终将处理结果写入到一个分布式存储中，提供给应用程序访问。我们每天的实时消息量从几百万到几十亿不等，数据总量达到TB级。对于我们来说，storm往往会配合分布式存储服务一起使用。在我们正在进行的个性化搜索实时分析项目中，就使用了timetunnel + hbase + storm + ups的架构，每天处理几十亿的用户日志信息，从用户行为发生到完成分析延迟在秒级。

2013-05-14

842

http://www.ibeifeng.com/goods.php?id=310

2013-05-16

884

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。