PostgreSQL count-min sketch top-n 概率计算插件 cms_topn (结合窗口实现同比、环比、滑窗分析等) ...
标签
PostgreSQL , 概率计算 , pipelinedb , cms_topn , count-min sketch top-n
背景
概率计算是流式计算中比较重要的基础,PostgreSQL生态中的pipelinedb提供了诸多概率计算的功能模块。
《[转]流数据库 概率计算概念 - PipelineDB-Probabilistic Data Structures & Algorithms》
由于pipelinedb还没有插件化(估计快了),citusdb社区将pipelinedb中的count-min sketch部分剥离出来,提供了一个插件cms_topn。用于估算TOP-N的值,以及它对应的出现次数。
特别适合于热点分析,例如热点APP,热点店铺,特点商品等。
count-min 论文详见
我们可以试一下cms_topn