如何跳过es分页这个坑？-低调大师

如何跳过es分页这个坑？

2019-03-20 1020

1、分页查询

1.1、正常分页查询代码如下

假设现在你要查询第100页的10条数据，但是对于es来说，from=1000000，size=100，这时 es需要从各个分片上查询出来10000100条数据，然后汇总计算后从其中取出100条。如果有5个分片则需要查询出来5*10000100条数据，如果现在有一个100个查询请求呢，50亿左右的数据，一条数据2KB，就需要9000G左右的内存，什么样的机器能够支持这么庞大的查询，所以如果你在使用es的分页查询过程中，刚开始翻页可能速度比较快，可能到第一百页查询就需要4-5s，翻到1000页以后，直接报错了。

NativeSearchQueryBuilder query = new NativeSearchQueryBuilder();
        if(!StringUtils.isEmpty(ulqBean.getStartTime()) && !StringUtils.isEmpty(ulqBean.getEndTime())) {
            query.withQuery(QueryBuilders.rangeQuery("logTime").from(ulqBean.getStartTime()).to(ulqBean.getEndTime()));
        }

        if(!StringUtils.isEmpty(ulqBean.getSearch())) {
            BoolQueryBuilder shouldQuery = QueryBuilders.boolQuery()
                    .should(QueryBuilders.wildcardQuery("content", "*" + ulqBean.getSearch() + "*"))
                    .should(QueryBuilders.wildcardQuery("code", "*" + ulqBean.getSearch() + "*"))
                    .should(QueryBuilders.wildcardQuery("name", "*" + ulqBean.getSearch() + "*"));
            query.withQuery(shouldQuery);
        }

        query.withSort(new FieldSortBuilder("logTime").order(SortOrder.DESC));
        if(ulqBean.getPageNo() != null && ulqBean.getPageSize() != null) {
            //es结果从第0页开始算
            query.withPageable(new PageRequest(ulqBean.getPageNo() - 1, ulqBean.getPageSize()));
        }
        NativeSearchQuery build = query.build();
        org.springframework.data.domain.Page<ConductAudits> conductAuditsPage = template.queryForPage(build, ConductAudits.class);
        ulqBean.getPagination().setTotal((int) conductAuditsPage.getTotalElements());
        ulqBean.getPagination().setList(conductAuditsPage.getContent());

1.2、错误信息

[root@localhost elasticsearch-2.4.6]# curl -XGET 'http://11.12.84.126:9200/_audit_0102/_log_0102/_search?size=2&from=10000&pretty=true'
{
  "error" : {
    "root_cause" : [ {
      "type" : "query_phase_execution_exception",
      "reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
    } ],
    "type" : "search_phase_execution_exception",
    "reason" : "all shards failed",
    "phase" : "query",
    "grouped" : true,
    "failed_shards" : [ {
      "shard" : 0,
      "index" : "_audit_0102",
      "node" : "f_CQitYESZedx8ZbyZ6bHA",
      "reason" : {
        "type" : "query_phase_execution_exception",
        "reason" : "Result window is too large, from + size must be less than or equal to: [10000] but was [10002]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level parameter."
      }
    } ]
  },
  "status" : 500
}

1.3、修改问题

如果你的数据大小在你的控制范围内，想要进一步深度分页，你可以通过如下命令修改窗口大小:

curl -XPUT "http://11.12.84.126:9200/_audit_0102/_settings" -d '{
        "index": {
            "max_result_window": 100000
        }
    }'

2、深度查询问题

但是这只是允许你更进一步深度分页，却没有从根本上解决深度分页的问题，而且随着页码的增加，系统资源占用成指数级上升，很容易就会出现OOM。

这时如果你的产品经理要求你按照常规的做法去分页，你可以很明确的告诉他，你的系统不支持这么深度的分页，翻的越深，性能也就越差。

不过这种深度分页场景在现实中确实存在，有些场景下，我们可以说服产品经理很少有人会翻看很久之前的历史数据，但是有些场景下可能一天都产生几百万。这个时候我们可以根据具体场景具体分析。

3、利用scroll遍历数据

scroll查询原理是在第一次查询的时候一次性生成一个快照，根据上一次的查询的id来进行下一次的查询，这个就类似于关系型数据库的游标，然后每次滑动都是根据产生的游标id进行下一次查询，这种性能比上面说的分页性能要高出很多，基本都是毫秒级的。注意：scroll不支持跳页查询。使用场景：对实时性要求不高的查询，例如微博或者头条滚动查询。具体java代码实现

3.1、设置查询条件

BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
       QueryBuilder builder = QueryBuilders.queryStringQuery("123456").field("code");
       boolQueryBuilder.must(QueryBuilders.termQuery("logType", "10"))
               .must(builder);

3.2、第一次查询

1、第一次查询，跟平时的search查询一样需要设置index和type以及查询条件。
2、如果把查询类型设置成SCAN，那么不能获取结果并且不支持排序，只能获得scrollId，如果使用默认设置或者不设置，那么第一次在获取id的同时也可以获取到查询结果。
3、这个size大小的意思不是总分页的大小，实际数量应该是：所以实际返回的数量是：分片的数量*size
4、滚动时间设置是指在这个查询搜索结果的缓存时间，时间不能太久，毕竟内存空间是有限的。

SearchResponse response1 = client.prepareSearch("_audit_0221").setTypes("_log_0221")
                    .setQuery(boolQueryBuilder)
                    .setSearchType(.setSearchType(SearchType.DEFAULT))
                    .setSize(10).setScroll(TimeValue.timeValueMinutes(5))
                    .addSort("logTime", SortOrder.DESC)
                    .execute().actionGet();//第一次查询
for (SearchHit searchHit : response1.getHits().hits()) {
            biz handle....;
}

3.3、第二次查询，循环获取查询结果

while (response1.getHits().hits().length>0) {
            for (SearchHit searchHit : response1.getHits().hits()) {
                System.out.println(searchHit.getSource().toString());
            }
            response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
                    .execute().actionGet();
        }

如果是一次性的搜索，可以清除查询结果，毕竟可以减少对内存的消耗。

ClearScrollRequest request = new ClearScrollRequest();
        request.addScrollId(scrollId);
        client.clearScroll(request);

4、利用scroll-scan遍历数据

使用场景：我有500w用户，需要遍历所有用户发送数据，并且对顺序没有要求，这个时候我们可以使用scroll-scan。

具体使用方式：

4.1、查询

SearchResponse response = client.prepareSearch("_audit_0221").setTypes("_log_0221")
                    .setQuery(boolQueryBuilder)
                    .setSearchType(SearchType.SCAN)
                    .setSize(5).setScroll(TimeValue.timeValueMinutes(5))
                    .addSort("logTime", SortOrder.DESC)
                    .execute().actionGet();

4.2、获取结果

SearchResponse response1 = client.prepareSearchScroll(scrollId).setScroll(TimeValue.timeValueMinutes(5))
                .execute().actionGet();

 while (response1.getHits().hits().length>0) {
            for (SearchHit searchHit : response1.getHits().hits()) {
                System.out.println(searchHit.getSource().toString());
            }
            response1 = client.prepareSearchScroll(response1.getScrollId()).setScroll(TimeValue.timeValueMinutes(5))
                    .execute().actionGet();
}

5、也可以使用如下spring提供的ElasticsearchTemplate分页的查询方式

QueryBuilder builder = QueryBuilders.boolQuery().filter(QueryBuilders.termQuery("code", "123456"));
        SearchQuery searchQuery = new NativeSearchQueryBuilder().withIndices("_audit_0221")
                .withTypes("_log_0221").withQuery(builder).withPageable(new PageRequest(0, 2)).build();
        String srollId = template.scan(searchQuery, 100000, false);

        while (true) {
            Page<ConductAudits> scroll = template.scroll(srollId, 1000, ConductAudits.class);
            if(scroll.getContent().size()==0) {
                break;
            }
            List<ConductAudits> content = scroll.getContent();
            for (ConductAudits c: content
                 ) {
                System.out.println(JSON.toJSONString(c));
            }
           // System.out.println(JSON.toJSONString(scroll.getContent()+"\r\n"));
            for (ConductAudits conductAudits : scroll.getContent()) {
                System.out.println(JSON.toJSONString(conductAudits+"\r\n"));
            }
        }

6、 scroll和scroll-scan区别

scroll支持排序，scroll-scan不支持排序，是按照索引顺序返回，可以提高查询效率。
scroll-scan第一次查询只支持返回id，没有结果。

7、总结：

es的分页查询不支持深度分页，如果偏要使用要结合具体业务场景进行使用。不能当成关系型数据库中的分页进行使用。
要想提高产品体验和查询效率不能过于依赖技术，要结合需求进行分析以提高体验，因为很多搜索类产品都不支持深度分页。
如果在不涉及排序的情况下尽量使用scroll-scan，它是按照索引顺序返回，提高效率。

PS：elasticSearch各个版本可能都稍有区别，但是原理相同。本文的很多代码都是基于es 2.4.6

微信关注我们

原文链接：https://blog.roncoo.com/article/1108195214770155521

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

安装Docker Docker官方建议在Ubuntu中安装，因为Docker基于Ubuntu发布的，而且一般Docker出现的问题Ubuntu是最先更新或者打补丁的，在很多版本的centos中不支持更新最新的一些补丁。但是企业里面大部分使用是centos系统，因此我们开发也使用centos，但是我们建议使用centos7以上的版本，在centos6中，安装前需要安装很多其他环境以及docker的补丁包。前期准备 centos7的系统，上面可以上外网1）yum包更新到最新 sudo yum update 2)安装需要的软件包，yum-util提供了yum-config-manager功能，其他俩个是devicemapper的驱动依赖 sudo yum install -y yum-utils device-mapper-persistent-data lvm2 3)yum 源设置阿里云 sudo yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo 4)安...

2019-03-13

889

Java CPU 和 PSU 版本解释从 2014 年 10 月发布 Java SE 7 Update 71 (Java SE 7u71) 开始，Oracle 将在发布重要补丁更新 (CPU) 的同时发布相应的 Java SE 7 补丁集更新 (PSU)。我应当选择哪个 Java 版本：CPU 还是 PSU？ Oracle 强烈建议所有 Java SE 用户升级到相应版本系列的最新 CPU 版本。大多数用户应当选择 CPU 版本。仅当用户受到版本说明中所述的该版本所修复的其他漏洞的影响时才应使用相应的 PSU 版本。后续 CPU 版本将包含当前 PSU 的所有修复。鉴于此，组织应当测试其环境中的当前 PSU，这些修复将包含在下一个 CPU 中。 Java CPU 与 PSU 之间的区别？ Java SE 重要补丁更新 (CPU) 包含安全漏洞修复和重要漏洞修复。Oracle 强烈建议所有 Java SE 用户及时升级到最新的 CPU 版本。Java SE CPU 版本号采用奇数编号（即 7u71、7u65 — 有关 Java SE 版本编号方式的详细信息，请点击这里）。 Jav...

2019-03-23

1024

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。