您现在的位置是：首页 > 文章详情

【译】Spark-Alchemy：HyperLogLog的使用介绍

日期：2019-06-30点击：738收藏

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html]

译者：辰石，阿里巴巴计算平台事业部EMR团队技术专家，目前从事大数据存储以及Spark相关方面的工作。

预先聚合是一种常用高性能分析的手段，通过该方法处理数据的规模可以下降1000倍，例如网站访问记录可以产生100亿条记录，通过预先聚合可以减少到1000万条记录，因此数据的处理成本以及处理时间都会相应的减少，此外用户还可以通过更高层次的聚合达到进一步的提升，例如在时间维度上按天进行聚合，或者按照网站维度上进行聚合而非按照URL来进行聚合。

本篇文章主要介绍开源库spark-alchemy中的HyperLogLog功能以及他是如何解决数据聚合过程中遇到挑战

原文链接：https://yq.aliyun.com/articles/706965

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。