解密Elasticsearch：深入探究这款搜索和分析引擎

解密Elasticsearch：深入探究这款搜索和分析引擎 | 京东云技术团队

2023-05-05 927

作者：京东保险管顺利

开篇

最近使用Elasticsearch实现画像系统，实现的dmp的数据中台能力。同时调研了竞品的架构选型。以及重温了redis原理等。特此做一次es的总结和回顾。网上没看到有人用Elasticsearch来完成画像的。我来做第一次尝试。

背景说完，我们先思考一件事，使用内存系统做数据库。他的优点是什么？他的痛点是什么？

一、原理

这里不在阐述全貌。只聊聊通讯、内存、持久化三部分。

通讯

es集群最小单元是三个节点。两个从节点搭配保证其高可用也是集群化的基础。那么节点之间RPC通讯用的是什么？必然是netty，es基于netty实现了Netty4Transport的通讯包。初始化Transport后建立Bootstrap，通过MessageChannelHandler完成接收和转发。es里区分server和client，如图1。序列化使用的json。es在rpc设计上偏向于易用、通用、易理解。而不是单追求性能。

图1

有了netty的保驾护航使得es放心是使用json序列化。

内存

图2

es内存分为两部分【on heap】和【off heap】。on heap这部分由es的jvm管理。off heap则是由lucene管理。on heap 被分为两部分，一部分可以回收，一部分不能回收。

能回收的部分index buffer存储新的索引文档。当被填满时，缓冲区的文档会被写入到磁盘segment上。node上共享所有shards。

不能被回收的有node query cache、shard request cache、file data cache、segments cache

node query cache是node级缓存，过滤后保存在每个node上，被所有shards共享，使用bitset数据结构（布隆优化版）关掉了评分。使用的LRU淘汰策略。GC无法回收。

shard request cache是shard级缓存，每个shard都有。默认情况下该缓存只存储request结果size等于0的查询。所以该缓存不会被hits，但却缓存hits.total，aggregations，suggestions。可以通过clear cache api清除。使用的LRU淘汰策略。GC无法回收。

file data cache 是把聚合、排序后的data缓存起来。初期es是没有doc values的，所以聚合、排序后需要有一个file data来缓存，避免磁盘IO。如果没有足够内存存储file data，es会不断地从磁盘加载数据到内存，并删除旧的数据。这些会造成磁盘IO和引发GC。所以2.x之后版本引入doc values特性，把文档构建在indextime上，存储到磁盘，通过memory mapped file方式访问。甚至如果只关心hits.total，只返回doc id，关掉doc values。doc values支持keyword和数值类型。text类型还是会创建file data。

segments cache是为了加速查询，FST永驻堆内内存。FST可以理解为前缀树，加速查询。but！！es 7.3版本开始把FST交给了堆外内存，可以让节点支持更多的数据。FST在磁盘上也有对应的持久化文件。

off heap 即Segments Memory，堆外内存是给Lucene使用的。所以建议至少留一半的内存给lucene。

es 7.3版本开始把tip（terms index）通过mmp方式加载，交由系统的pagecache管理。除了tip，nvd（norms），dvd（doc values）， tim（term dictionary），cfs（compound）类型的文件都是由mmp方式加载传输，其余都是nio方式。tip off heap后的效果jvm占用量下降了78%左右。可以使用_cat/segments API 查看 segments.memory内存占用量。

由于对外内存是由操作系统pagecache管理内存的。如果发生回收时，FST的查询会牵扯到磁盘IO上，对查询效率影响比较大。可以参考linux pagecache的回收策略使用双链策略。

持久化

es的持久化分为两部分，一部分类似快照，把文件缓存中的segments 刷新（fsync）磁盘。另一部分是translog日志，它每秒都会追加操作日志，默认30分钟刷到磁盘上。es持久化和redis的RDB+AOF模式很像。如下图

图3

上图是一个完整写入流程。磁盘也是分segment记录数据。这里濡染跟redis很像。但是内部机制没有采用COW（copy-on-write）。这也是查询和写入并行时load被打满的原因所在。

小结

es内存和磁盘的设计上非常巧妙。零拷贝上采用mmap方式，磁盘数据映射到off heap，也就是lucene。为了加速数据的访问，es每个segment都有会一些索引数据驻留在off heap里；因此segment越多，瓜分掉的off heap也越多，这部分是无法被GC回收！

结合以上两点可以清楚知道为什么es非常吃内存了。

二、应用

用户画像系统中有以下难点需要解决。

1.人群预估：根据标签选出一类人群，如20-25岁的喜欢电商社交的男性。20-25岁∩电商社交∩男性。通过与或非的运算选出符合特征的clientId的个数。这是一组。

我们组与组之前也是可以在做交并差的运算。如既是20-25岁的喜欢电商社交的男性，又是北京市喜欢撸铁的男性。（20-25岁∩电商社交∩男性）∩（20-25岁∩撸铁∩男性）。对于这样的递归要求在17亿多的画像库中，秒级返回预估人数。

2.人群包圈选：上述圈选出的人群包。要求分钟级构建。

3.人包判定：判断一个clientId是否存在若干个人群包中。要求10毫秒返回结果。

我们先尝试用es来解决以上所有问题。

人群预估，最容易想到方案是在服务端的内存中做逻辑运算。但是圈选出千万级的人群包人数秒级返回的话在服务端做代价非常大。这时候可以吧计算压力抛给es存储端，像查询数据库一样。使用一条语句查出我们想要的数据来。

例如mysql

select a.age from a where a.tel in (select b.age from b);

对应的es的dsl类似于

{"query":{"bool":{"must":[{"bool":{"must":[{"term":{"a9aa8uk0":{"value":"age18-24","boost":1.0}}},{"term":{"a9ajq480":{"value":"male","boost":1.0}}}],"adjust_pure_negative":true,"boost":1.0}},{"bool":{"adjust_pure_negative":true,"boost":1.0}}],"adjust_pure_negative":true,"boost":1.0}}}

这样使用es的高检索性能来满足业务需求。无论所少组，组内多少的标签。都打成一条dsl语句。来保证秒级返回结果。

使用官方推荐的RestHighLevelClient，实现方式有三种，一种是拼json字符串，第二种调用api去拼字符串。我使用第三种方式BoolQueryBuilder来实现，比较优雅。它提供了filter、must、should和mustNot方法。如

     /**
     * Adds a query that <b>must not</b> appear in the matching documents.
     * No {@code null} value allowed.
     */
    public BoolQueryBuilder mustNot(QueryBuilder queryBuilder) {
        if (queryBuilder == null) {
            throw new IllegalArgumentException("inner bool query clause cannot be null");
        }
        mustNotClauses.add(queryBuilder);
        return this;
    }

    /**
     * Gets the queries that <b>must not</b> appear in the matching documents.
     */
    public List<QueryBuilder> mustNot() {
        return this.mustNotClauses;
    }

使用api的可以大大的show下编代码的能力。

构建人群包。目前我们圈出最大的包有7千多万的clientId。想要分钟级别构建完（7千万数据在条件限制下35分钟构建完）需要注意两个地方，一个是es深度查询，另一个是批量写入。

es分页有三种方式，深度分页有两种，后两种都是利用游标（scroll和search_after）滚动的方式检索。

scroll需要维护游标状态，每一个线程都会创建一个32位唯一scroll id，每次查询都要带上唯一的scroll id。如果多个线程就要维护多个游标状态。search_after与scroll方式相似。但是它的参数是无状态的，始终会针对对新版本的搜索器进行解析。它的排序顺序会在滚动中更改。scroll原理是将doc id结果集保留在协调节点的上下文里，每次滚动分批获取。只需要根据size在每个shard内部按照顺序取回结果即可。

写入时使用线程池来做，注意使用的阻塞队列的大小，还要选择适的拒绝策略（这里不需要抛异常的策略）。批量如果还是写到es中（比如做了读写分离）写入时除了要多线程外，还有优化写入时的refresh policy。

人包判定接口，由于整条业务链路非常长，这块检索，上游服务设置的熔断时间是10ms。所以优化要优化es的查询（也可以redis）毕竟没负责逻辑处理。使用线程池解决IO密集型优化后可以达到1ms。tp99高峰在4ms。

三、优化、瓶颈与解决方案

以上是针对业务需求使用es的解题方式。还需要做响应的优化。同时也遇到es的瓶颈。

1.首先是mapping的优化。画像的mapping中fields中的type是keyword，index要关掉。人包中的fields中的doc value关掉。画像是要精确匹配；人包判定只需要结果而不需要取值。es api上人包计算使用filter去掉评分，filter内部使用bitset的布隆数据结构，但是需要对数据预热。写入时线程不易过多，和核心数相同即可；调整refresh policy等级。手动刷盘，构建时index.refresh_interval 调整-1，需要注意的是停止刷盘会加大堆内存，需要结合业务调整刷盘频率。构建大的人群包可以将index拆分成若干个。分散存储可以提高响应。目前几十个人群包还是能支撑。如果日后成长到几百个的时候。就需要使用bitmap来构建存储人群包。es对检索性能很卓越。但是如遇到写操作和查操作并行时，就不是他擅长的。比如人群包的数据是每天都在变化的。这个时候es的内存和磁盘io会非常高。上百个包时我们可以用redis来存。也可以选择使用MongoDB来存人包数据。

四、总结

以上是我们使用Elasticsearch来解决业务上的难点。同时发现他的持久化没有使用COW（copy-on-write）方式。导致在实时写的时候检索性能降低。

使用内存系统做数据源有点非常明显，就是检索块！尤其再实时场景下堪称利器。同时痛点也很明显，实时写会拉低检索性能。当然我们可以做读写分离，拆分index等方案。

除了Elasticsearch，我们还可以选用ClickHouse，ck也是支持bitmap数据结构。甚至可以上Pilosa，pilosa本就是BitMap Database。

参考

贝壳DMP平台建设实践

Mapping parameters | Elasticsearch Reference [7.10] | Elastic

Elasticsearch 7.3 的 offheap 原理

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/8704613

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

“前端”工匠系列（一）：合格的工匠，究竟该搞什么 | 京东云技术团队

作者：京东零售刘伟东此文为系列文章第一篇，为浅尝辄止的引入，目的是为了让前端从业人员及非从业但是对此领域感兴趣的人对于”前端“是干什么的这个话题有个无门槛的了解。 “前端职能是什么” 说起"前端"，维基百科对这个技术角色的定位是“前端（英語：front-end）和后端（英語：back-end）是描述进程开始和结束的通用词汇。前端作用于采集输入信息，后端进行处理。计算机程序的界面样式，视觉呈现属于前端。”对于当下服务于互联网各企业的前端研发人员来说，这个岗位定义是很清晰的。前端是个对于后端的相对概念，它的岗位角色更应该关注“采集和呈现”两个部分。从以上的概念来看，前端研发的正常职责是通过编码工作对数据及业务逻辑进行展示，用户通过操作界面（或其他交付方式）与系统进行交互，最后用户的交互信息可以按照功能逻辑的预期传输到后端服务递交给业务后端及更下游的算法层处理。 “编码工作包括什么呢？” 前端研发人员工作对接的上游干系人包括产品和UI设计，必要输入有产品文档和UI设计稿件，下游干系人为后端研发人员，必要的输出为一整套界面交互及逻辑处理实现代码。产品要向研发团队输出PRD（产品需求文...

2023-05-05

489

作者：京东科技宋慧超一、前言最近在开发一个功能模块时，在功能自测阶段，通过使用单测测试功能的完整性，在测试单测联通性使用到静态方法测试时，发现单测报错，通过查阅解决方案发现需要对Javaassist包进行排包或者升版本处理。通过排包解决掉单测报错，在部署项目时发现频繁报bean注入失败问题，最终定位发现是因为对Javaassist包排包引起的bean加载失败。故而对Javaassist包相关知识进行学习整理文章如下。单测相关报错信息如下： Powermock - java.lang.IllegalStateException: Failed to transform class 解决单测报错的文章链接： https://stackoverflow.com/questions/32854688/powermock-java-lang-illegalstateexception-failed-to-transform-class 二、问题复现 1、前期准备首先使用了Spring框架新建一个demo，并写一个简单测试类对问题进行复现。 **UserService**的定义： pu...

2023-05-05

422

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。