如何在Spark中实现Count Distinct重聚合-低调大师

如何在Spark中实现Count Distinct重聚合

2019-10-28 1055

背景

Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。

以如下查询为例，Count Distinct的实现方式主要有两种：

SELECT region, COUNT(DISTINCT userId) FROM orders GROUP BY region

对订单表的数据按照region进行shuffle分区，在每个分区中使用一个类似HashTable的数据结构，存储所有的非重复userId的值，最后统计所有key的数量。
对表t的数据按照（region, userId）进行shuffle分区，第一步的结果即为非重复的（region, userId）对，对于第一步的结果再按照region分区，统计每个分区中的Row数量。

第一种方式

微信关注我们

原文链接：https://yq.aliyun.com/articles/723521

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深度 | 带领国产数据库走向世界，POLARDB底层逻辑是什么？ | 10月28号栖夜读

点击订阅云栖夜读日刊，专业的技术干货，不容错过！阿里专家原创好文 1.深度 | 带领国产数据库走向世界，POLARDB底层逻辑是什么？在刚刚结束的乌镇世界互联网大会上，阿里云自主研发的POLARDB云原生数据库当选世界互联网领先科技成果，凭实力站上C位。这个”包管“了北京市每天800万人次的公交出行的下一代分布式数据库到底有多强大？我们请阿里云智能数据库事业部总经理鸣嵩跟大家一起聊聊。阅读更多》》 2.十年磨一剑：从2009启动“去IOE”工程到2019年OceanBase拿下TPC-C世界第一由此，启动了后面几年备受争议的“去IOE”工程。2010年5月，邀请正祥加盟淘宝，由此拉开了 OceanBase的自主研发之路。中间历尽磨难，各种反对、讽刺挖苦……回想起来当时都是折磨、痛苦和眼泪，今天说起来可以算是传奇和笑话了。2019年10月，OceanBase TPC-C 世界第一！热烈祝贺正祥和OB团队。今天我们可以自豪地说，阿里巴巴数字经济体的小二们，十年磨一剑，终于解决了困扰国家已久的信息技术三大软肋（“CPU芯片、操作系统、数据库”）之一的数据库难题，OceanBase 10...

2019-10-27

783

Tableau是一款极强大、安全且灵活的端到端数据分析平台，其Tableau Desktop是Tableau的一款可视化数据管理工具，以拖拽的方式就能提供实时可视化分析，快速获取切实可行的结果。目前交互式分析正在火热公测中，传送门：交互式分析官网交互式分析是一款实时交互平台，兼容PostgreSQL生态，能对接PostgreSQL的BI工具都能对接交互式分析，同时，交互式分析也与大数据生态无缝打通，支持直接加速查询MaxCompute中的数据。但小编最近收到朋友们的反馈：希望交互式分析对接Tableau的时候，能够直接在Tableau中对外部表（MaxCompute表）可视化分析。（升级前的交互式分析版本支持对接Tableau，但是不支持在Tableau中可视化分析外部表）在交互式分析中，新建外部表直接查询MaxCompute数据，数据仍然存储在MaxCompute中。收到大家的反馈之后，小编立马跟开发锅锅们提需求、排期、测试。就在今天这个小功能悄悄咪咪上线啦，只需要一个命令操作就能让Tableau支持分析处理交互式分析的外部表。下面我们就来康康这个神奇的小功能吧！前提条件请...

2019-10-28

774

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。