美团Apache Kylin精确去重指标优化历程-低调大师

美团Apache Kylin精确去重指标优化历程

2017-07-31 668

康凯森，美团点评大数据工程师，Apache Kylin commiter，目前主要负责Apache Kylin在美团点评的平台化建设。

问题背景

本文记录了我将Apache Kylin超高基数的精确去重指标查询提速数十倍的过程，大家有任何建议或者疑问欢迎讨论。

某业务方的cube有12个维度，35个指标，其中13个是精确去重指标，并且有一半以上的精确去重指标单天基数在千万级别，cube单天数据量1.5亿行左右。业务方一个结果仅有21行的精确去重查询竟然耗时12秒多，其中HBase端耗时6秒多，Kylin的query server端耗时5秒多:

SELECT A, B, count(distinct uuid), FROM table WHERE dt = 17150 GROUP BY A, B

精确去重指标已经在美团点评生产环境大规模使用，我印象中精确去重的查询的确比普通的Sum指标慢一点，但也挺快的。这个查询慢的如此离谱，我就决定分析一下，这个查询到底慢在哪。

优化1 将精确去重指标拆分HBase列族

我首先确认了这个cube的维度设计是合理的，这个查询也精准匹配了cuboid，并且在HBase端也只扫描了21行数据。

那么问题来了，为什么在HBase端只扫描21行数据却需要6秒多?一个显而易见的原因是Kylin的精确去重指标是用bitmap存储的明细数据，而这个cube有13个精确去重指标，并且基数都很大。我从两方面验证了这个猜想：

1.同样SQL的查询Sum指标只需要120毫秒，并且HBase端Scan仅需2毫秒。

2.我用HBase HFile命令行工具查看并计算出HFile中单个KeyValue的大小，发现普通指标的列族中每个KeyValue平均大小是29B，精确去重指标列族的每个KeyValue平均大小却有37M。

所以我第一个优化就是将精确去重指标拆分到多个HBase列族，优化后的效果十分明显。查询时间从12秒多减少到5.7秒左右，HBase端耗时从6秒多减少到1.3秒左右，不过query server耗时依旧有4.5秒多。

优化2 移除不必要的toString避免bitmap deserialize

Kylin的query server耗时依旧有4.5秒多，我猜测肯定还是和bitmap比较大有关，但是为什么bitmap大会导致如此耗时呢?为了分析query server端查询处理的时间到底花在了哪，我利用Java Mission Control进行了性能分析。

JMC分析很简单，在Kylin的启动进程中增加以下参数：

-XX:+UnlockCommercialFeatures -XX:+FlightRecorder
-XX:+UnlockDiagnosticVMOptions -XX:+DebugNonSafepoints
-XX:StartFlightRecording=delay=20s,duration=300s,name=kylin,filename=myrecording.jfr,settings=profile

获得myrecording.jfr文件后，我们在本机执行jmc命令，然后打开myrecording.jfr文件就可以进行性能分析。从jmc的热点代码图中我们发现，耗时最多的代码竟然是一个毫无意义的toString。去掉这个toString之后，query server的耗时直接减少了1秒多。

优化3 获取bitmap的字节长度时避免deserialize

在优化2去掉无意义的toString之后，热点代码已经变成了对bitmap的deserialize。不过bitmap的deserialize共有两处，一处是bitmap本身的deserialize，一处是在获取bitmap的字节长度时。于是很自然的想法就是是在获取bitmap的字节长度时避免deserialize bitmap，当时有两种思路：

1.在serialize bitmap时就写入bitmap的字节长度。

2.在MutableRoaringBitmap序列化的头信息中获取bitmap的字节长度。(Kylin的精确去重使用的bitmap是RoaringBitmap)

我最终确认思路2不可行，采用了思路1。

思路1中一个显然的问题就是如何保证向前兼容，我向前兼容的方法就是根据MutableRoaringBitmap deserialize时的cookie头信息来确认版本，并在新的serialize方式中写入了版本号，便于之后序列化方式的更新和向前兼容。

经过这个优化后，Kylin query server端的耗时再次减少1秒多。

优化4 无需上卷聚合的精确去重查询优化

从精确去重指标在美团点评大规模使用以来，我们发现部分用户的应用场景并没有跨segment上卷聚合的需求，即只需要查询单天的去重值，或是每次全量构建的cube，也无需跨segment上卷聚合。所以我们希望对无需上卷聚合的精确去重查询进行优化，当时我考虑了两种可行的方案：

方案1：精确去重指标新增一种返回类型

一个极端的做法是对无需跨segment上卷聚合的精确去重查询，我们只存储最终的去重值。

优点：

1.存储成本会极大降低。

2.查询速度会明显提高。

缺点：

1.无法支持上卷聚合，与Kylin指标的设计原则不符合。

2.无法支持segment的merge，因为要进行merge必须要存储明细的bitmap。

3.新增一种返回类型，对不清楚的用户可能会有误导。

4.查询需要上卷聚合时直接报错，用户体验不好，尽管使用这种返回类型的前提是无需上聚合卷。

实现难点：

如果能够接受以上缺点，实现成本并不高，目前没有想到明显的难点。

方案2：serialize bitmap的同时写入distinct count值。

优点：

1.对用户无影响。

2.符合现在Kylin指标和查询的设计。

缺点：

1.存储依然需要存储明细的bitmap。

2.查询速度提升有限，因为即使不进行任何bitmap serialize，bitmap本身太大也会导致HBase scan，网络传输等过程变慢。

实现难点：

如何根据是否需要上卷聚合来确定是否需要serialize bitmap?

解决过程：

我开始的思路是从查询过程入手，确认在整个查询过程中，哪些地方需要进行上卷聚合。为此，我仔细阅读了Kylin query server端的查询代码，HBase Coprocessor端的查询代码，Calcite的example例子。发现在HBase端，Kylin query server端，cube build时都有可能需要指标的聚合。

此时我又意识到一个问题：即使我清晰的知道了何时需要聚合，我又该如何把是否聚合的标记传递到精确去重的反序列方法中呢?现在精确去重的deserialize方法参数只有一个ByteBuffer，如果加参数，就要改变整个kylin指标deserialize的接口，这将会影响所有指标类型，并会造成大范围的改动。所以我把这个思路放弃了。

后来我"灵光一闪"，想到既然我的目标是优化无需上卷的精确去重指标，那为什么还要费劲去deserialize出整个bitmap呢，我只要个distinct count值不就完了。所以我的目标就集中在BitmapCounter本身的deserialize上，并联想到我最近提升了Kylin前端加载速度十倍以上的核心思想：延迟加载，就改变了BitmapCounter的deserialize方法，默认只读出distinct count值，不进行bitmap的deserialize，并将那个buffer保留，等到的确需要上卷聚合的时候再根据buffer deserialize 出bitmap。

当然，这个思路可行有一个前提，就是buffer内存拷贝的开销是远小于bitmap deserialize的开销，庆幸的是事实的确如此。最终经过这个优化，对于无需上卷聚合的精确去重查询，查询速度也有了较大提升。显然，如你所见，这个优化加速查询的同时加大了需要上卷聚合的精确去重查询的内存开销。我的想法是首先对于超大数据集并且需要上卷的精确去重查询，用户在分析查询时返回的结果行数应该不会太多，其次我们需要做好query server端的内存控制。

总结

我通过总共4个优化，在向前兼容的前提下，后端仅通过100多行的代码改动，对Kylin超高基数的精确去重指标查询有了明显提升，测试中最明显的查询有50倍左右的提升。

本文作者：康凯森

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/182803

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark Streaming vs. Kafka Stream 哪个更适合你

译者注：本文介绍了两大常用的流式处理框架，Spark Streaming和Kafka Stream，并对他们各自的特点做了详细说明，以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加，仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理，以便企业能够实时地对不断变化的业务环境做出反应。流式处理是持续而又并发地对数据进行实时处理。流式处理是处理数据流或传感器数据的理想平台，而“复杂事件处理”(CEP)则利用了逐个事件处理和聚合等技术。对于实时数据处理功能，我们有很多选择可以来实现，比如Spark、Kafka Stream、Flink、Storm等。在这个博客中，我将讨论Apache Spark和Kafka Stream的区别。 Apache Spark Apache Spark是大规模数据处理的通用框架，支持多种不同的编程语言和概念，例如MapReduce、内存处理、流式处理、图形处理和机器学习。它也可以用于Hadoop的顶层。数据可以从多种来源(例如Kafka、Flume、Kinesis或TCP套接字)获取，并且使用一些复杂的算法(高级功能，例如映射、归...

2017-07-31

589

我们在上一期谈到，数据库的臃肿，也就是过多的中间表以及相关存储过程，是由于其计算封闭性造成的。如果能够实现独立的计算引擎，使计算不再依赖于数据库提供，那么就可以为数据库瘦身了。内部来源的中间数据不必再以数据表的形式落地在数据库中，而可以放到文件系统中，由外部计算引擎提供进一步的计算能力。对于只读的中间数据，使用文件存储时不需要考虑再改写，可以更为紧致并采用一定的压缩手段，而且在访问时也不必考虑事务一致性，机制大为简化，这样能获得比数据库更好的吞吐性能。文件系统还可以采用树形组织方案，将各个应用（模块）的中间数据分类管理好，使其更加方便，并且可使中间数据将从属于应用模块，不会被其它模块访问到。当有模块修改或下线时，相应的中间数据可以跟随修改，而不必担心被共享而产生的耦合问题。用于生成中间数据的存储过程也可以移到数据库外部，作为应用程

2017-07-31

704

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。