Elasticsearch Query DSL查询入门-低调大师

Elasticsearch Query DSL查询入门

2019-05-16 803

本篇为学习DSL时做的笔记，适合ES新手，大佬请略过~

Query DSL又叫查询表达式，是一种非常灵活又富有表现力的查询语言，采用JSON接口的方式实现丰富的查询，并使你的查询语句更灵活、更精确、更易读且易调试

查询与过滤

Elasticsearch（以下简称ES）中的数据检索分为两种情况：查询和过滤。

Query查询会对检索结果进行评分，注重的点是匹配程度，例如检索“运维咖啡吧”与文档的标题有多匹配，计算的是查询与文档的相关程度，计算完成之后会算出一个评分，记录在_score字段中，并最终按照_score字段来对所有检索到的文档进行排序

Filter过滤不会对检索结果进行评分，注重的点是是否匹配，例如检索“运维咖啡吧”是否匹配文档的标题，结果只有匹配或者不匹配，因为只是对结果进行简单的匹配，所以计算起来也非常快，并且过滤的结果会被缓存到内存中，性能要比Query查询高很多

简单查询

一个最简单的DSL查询表达式如下：

GET /_search
{
  "query":{
    "match_all": {}
  }
}

/_search 查找整个ES中所有索引的内容

query 为查询关键字，类似的还有aggs为聚合关键字

match_all 匹配所有的文档，也可以写match_none不匹配任何文档

返回结果：

{
  "took": 6729,
  "timed_out": false,
  "num_reduce_phases": 6,
  "_shards": {
    "total": 2611,
    "successful": 2611,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 7662397664,
    "max_score": 1,
    "hits": [
      {
        "_index": ".kibana",
        "_type": "doc",
        "_id": "url:ec540365d822e8955cf2fa085db189c2",
        "_score": 1,
        "_source": {
          "type": "url",
          "updated_at": "2018-05-09T07:19:46.075Z",
          "url": {
            "url": "/app/kibana",
            "accessCount": 0,
            "createDate": "2018-05-09T07:19:46.075Z",
            "accessDate": "2018-05-09T07:19:46.075Z"
          }
        }
      },
	  ...省略其他的结果...
    ]
  }
}

took： 表示我们执行整个搜索请求消耗了多少毫秒

timed_out： 表示本次查询是否超时

这里需要注意当timed_out为True时也会返回结果，这个结果是在请求超时时ES已经获取到的数据，所以返回的这个数据可能不完整。

且当你收到timed_out为True之后，虽然这个连接已经关闭，但在后台这个查询并没有结束，而是会继续执行

_shards： 显示查询中参与的分片信息，成功多少分片失败多少分片等

hits： 匹配到的文档的信息，其中total表示匹配到的文档总数，max_score为文档中所有_score的最大值

hits中的hits数组为查询到的文档结果，默认包含查询结果的前十个文档，每个文档都包含文档的_index、_type、_id、_score和_source数据

结果文档默认情况下是按照相关度（_score）进行降序排列，也就是说最先返回的是相关度最高的文档，文档相关度意思是文档内容与查询条件的匹配程度，上边的查询与过滤中有介绍

指定索引

上边的查询会搜索ES中的所有索引，但我们通常情况下，只需要去固定一个或几个索引中搜索就可以了，搜索全部无疑会造成资源的浪费，在ES中可以通过以下几种方法来指定索引

指定一个固定的索引，ops-coffee-nginx-2019.05.15为索引名字

GET /ops-coffee-nginx-2019.05.15/_search

以上表示在ops-coffee-nginx-2019.05.15索引下查找数据

指定多个固定索引，多个索引名字用逗号分割

GET /ops-coffee-nginx-2019.05.15,ops-coffee-nginx-2019.05.14/_search

用*号匹配，在匹配到的所有索引下查找数据

GET /ops-coffee-nginx-*/_search

当然这里也可以用逗号分割多个匹配索引

分页查询

上边有说到查询结果hits默认只展示10个文档，那我们如何查询10个以后的文档呢？ES中给了size和from两个参数

size： 设置一次返回的结果数量，也就是hits中的文档数量，默认为10

from： 设置从第几个结果开始往后查询，默认值为0

GET /ops-coffee-nginx-2019.05.15/_search
{
  "size": 5,
  "from": 10,
  "query":{
    "match_all": {}
  }
}

以上查询就表示查询ops-coffee-nginx-2019.05.15索引下的所有数据，并会在hits中显示第11到第15个文档的数据

全文查询

上边有用到一个match_all的全文查询关键字，match_all为查询所有记录，常用的查询关键字在ES中还有以下几个

match

最简单的查询，下边的例子就表示查找host为ops-coffee.cn的所有记录

GET /ops-coffee-2019.05.15/_search
{
  "query":{
    "match": {
      "host":"ops-coffee.cn"
    }
  }
}

multi_match

在多个字段上执行相同的match查询，下边的例子就表示查询host或http_referer字段中包含ops-coffee.cn的记录

GET /ops-coffee-2019.05.15/_search
{
  "query":{
    "multi_match": {
      "query":"ops-coffee.cn",
      "fields":["host","http_referer"]
    }
  }
}

query_string

可以在查询里边使用AND或者OR来完成复杂的查询，例如：

GET /ops-coffee-2019.05.15/_search
{
  "query":{
    "query_string": {
      "query":"(a.ops-coffee.cn) OR (b.ops-coffee.cn)",
      "fields":["host"]
    }
  }
}

以上表示查找host为a.ops-coffee.cn或者b.ops-coffee.cn的所有记录

也可以用下边这种方式组合更多的条件完成更复杂的查询请求

GET /ops-coffee-2019.05.14/_search
{
  "query":{
    "query_string": {
      "query":"host:a.ops-coffee.cn OR (host:b.ops-coffee.cn AND status:403)"
    }
  }
}

以上表示查询（host为a.ops-coffee.cn）或者是（host为b.ops-coffee.cn且status为403）的所有记录

与其像类似的还有个simple_query_string的关键字，可以将query_string中的AND或OR用+或|这样的符号替换掉

term

term可以用来精确匹配，精确匹配的值可以是数字、时间、布尔值或者是设置了not_analyzed不分词的字符串

GET /ops-coffee-2019.05.14/_search
{
  "query":{
    "term": {
      "status": {
        "value": 404
      }
    }
  }
}

term对输入的文本不进行分析，直接精确匹配输出结果，如果要同时匹配多个值可以使用terms

GET /ops-coffee-2019.05.14/_search
{
  "query": {
    "terms": {
      "status":[403,404]
    }
  }
}

range

range用来查询落在指定区间内的数字或者时间

GET /ops-coffee-2019.05.14/_search
{
  "query": {
    "range":{
      "status":{
        "gte": 400,
        "lte": 599
      }
    }
  }
}

以上表示搜索所有状态为400到599之间的数据，这里的操作符主要有四个gt大于，gte大于等于，lt小于，lte小于等于

当使用日期作为范围查询时，我们需要注意下日期的格式，官方支持的日期格式主要有两种

时间戳，注意是毫秒粒度

GET /ops-coffee-2019.05.14/_search
{
  "query": {
    "range": {
      "@timestamp": {
        "gte": 1557676800000,
        "lte": 1557680400000,
        "format":"epoch_millis"
      }
    }
  }
}

日期字符串

GET /ops-coffee-2019.05.14/_search
{
  "query": {
    "range":{
      "@timestamp":{
        "gte": "2019-05-13 18:30:00",
        "lte": "2019-05-14",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd",
        "time_zone": "+08:00"
      }
    }
  }
}

通常更推荐用这种日期字符串的方式，看起来比较清晰，日期格式可以按照自己的习惯输入，只需要format字段指定匹配的格式，如果格式有多个就用||分开，像例子中那样，不过我更推荐用同样的日期格式

如果日期中缺少年月日这些内容，那么缺少的部分会用unix的开始时间（即1970年1月1日）填充，当你将"format":"dd"指定为格式时，那么"gte":10将被转换成1970-01-10T00:00:00.000Z

elasticsearch中默认使用的是UTC时间，所以我们在使用时要通过time_zone来设置好时区，以免出错

组合查询

通常我们可能需要将很多个条件组合在一起查出最后的结果，这个时候就需要使用ES提供的bool来实现了

例如我们要查询host为ops-coffee.cn且http_x_forworded_for为111.18.78.128且status不为200的所有数据就可以使用下边的语句

GET /ops-coffee-2019.05.14/_search
{
 "query":{
    "bool": {
      "filter": [
        {"match": {
          "host": "ops-coffee.cn"
        }},
        {"match": {
          "http_x_forwarded_for": "111.18.78.128"
        }}
      ],
      "must_not": {
        "match": {
          "status": 200
        }
      }
    }
  }
}

主要有四个关键字来组合查询之间的关系，分别为：

must： 类似于SQL中的AND，必须包含

must_not： 类似于SQL中的NOT，必须不包含

should： 满足这些条件中的任何条件都会增加评分_score，不满足也不影响，should只会影响查询结果的_score值，并不会影响结果的内容

filter： 与must相似，但不会对结果进行相关性评分_score，大多数情况下我们对于日志的需求都无相关性的要求，所以建议查询的过程中多用filter

写在最后

ES的查询博大精深，本篇文章属于基础入门，内容来源于官网

网上关于ELK搭建部署日志收集的文章很多，但收集到日志之后该如何应用这个数据宝库呢？网上仅有一些大厂分享的比较泛的概念没有实际落地的过程，我在想把这些数据利用起来，初步想法是去ES搜索出来业务或者功能的流量数据，然后做趋势分析，这不从DSL开始学习，欢迎大家加我好友找我交流，我会非常乐意

从RocketMQ消息持久化设计看磁盘性能瓶颈的突破

从RocketMQ消息持久化设计看磁盘性能瓶颈的突破微信公众号：IT一刻钟。大型现实非严肃主义现场，一刻钟与你分享优质技术架构与见闻，做一个有剧情的程序员。关注可第一时间了解更多精彩内容，定期有福利相送哟。分布式消息队列通常有高可靠性的要求，所以消息数据是需要持久化存储的。那么以什么方式来进行持久化是一个值得商榷的问题。从存储方式和效率来看，文件系统 > KV存储 > 关系型数据库，直接操作文件系统自然是最快的一种存储方式，但是仅仅如此就可以了吗？当然不是，在无数的过往学习中，磁盘IO性能拖累系统性能是众所周知的。那么RocketMQ是怎么解决呢？各位看官且待我慢慢道来。存储架构设计首先我们回忆一下，假如现在有一个字你不认识，然后你手上正巧有一本汉语言辞典，请问该怎么做才能以最快的速度查到这个字？凡是上过小学的人，应该都不会从汉语言辞典第一页开始一页一页的查找。作为优秀小学毕业生的我们，肯定是先通过偏旁检索到这个字，然后根据检索上这个字的页码，到汉语言辞典里对应的页码中去找到这个字，于是你就知道它读什么了。大道相通。 RocketMQ在文件系统中，把...

2019-05-16

781

最近把Linux Bash编程的知识复习了一遍，大概梳理了一下，做个记录。第一个Bash-Script LINUX shell的种类非常之多，但是目前用得最为广泛的还是Bash，本文也是基于Bash的Shell环境。下面是一个简单的示例: #! /bin/sh echo 'hello world!' 这就是一个最简单的shell脚本了。第一行的#!用来告诉系统，这个脚本用什么解释器来执行（说明:sh和bash本身是不同的Shell，但是在我目前用得CentOS7版本sh和bash是等价的，sh是一个指向bash的符号链接）。 echo命令输出文本到屏幕如何运行脚本一种方式就是将脚本作为解释器的参数，如： sh test.sh 第二种方式就是授予文件可执行权限 chmod +x test.sh 或者 chmod 755 test.sh 执行脚本 ./test.sh 变量与参数变量 Bash是一种弱类型的语言，你只需要直接定义变量名=value即可。当需要引用这个变量的时候使用$var_name或者${var_name}即可。 $var_name是${var_name}的一种简...

2019-05-17

714

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。