数仓性能调优：row_number() over(p)-rn=1性能瓶颈发现和改写套路-低调大师

数仓性能调优：row_number() over(p)-rn=1性能瓶颈发现和改写套路

2023-11-28 402

本文分享自华为云社区《GaussDB(DWS)性能调优：row_number() over(p)-rn=1性能瓶颈发现和改写套路》，作者：Zawami 。

1、改写场景

本套路应用于子查询中含有row_number() over(partition by order by) rn，并仅把rn列用于分类排序后筛选最大值的场景。

2、性能分析

GaussDB中SQL语句的执行很多时候是流式的，即对每一条数据进行流水加工，各层算子同时在执行，缩短执行耗时。

但是在一些场景下，需要先取得前一个算子的全部结果集，然后才能够进行下一步的加工；窗口函数就是其中的一种。

观察执行计划可以看到，SQL会在计算得到rn列后，再同本层查询其它列进行关联。由于存在窗口函数，必须先把51号算子先执行完，然后才能进行关联，造成性能瓶颈。

通过去窗口函数改写，我们可以使得分类汇总同明细数据之间的关联流水执行。

改写前局部SQL

SELECT

PROD_EN_NAME,

PROD_LIFE_CYCLE_STATUS

FROM

(

SELECT

PROD_EN_NAME,

LIFE_CYCLE AS PROD_LIFE_CYCLE_STATUS,

DEL_FLAG,

ROW_NUMBER ( ) OVER ( PARTITION BY PROD_EN_NAME ORDER BY RUN_DATE DESC ) RN

FROM

DMISC.DM_DIM_INV_PROD_ATTRI_SNAP_D

WHERE

DATA_TYPE = 1



AND DEL_FLAG = 'N'

AND RUN_DATE <= CAST ( '2023-06-11' || ' 00:00:00' AS TIMESTAMP )

)

WHERE

RN = 1

改写后局部SQL

WITH T AS (

SELECT

PROD_EN_NAME,

MAX ( LIFE_CYCLE ) AS PROD_LIFE_CYCLE_STATUS,

RUN_DATE

FROM

DMISC.DM_DIM_INV_PROD_ATTRI_SNAP_D

WHERE

DATA_TYPE = 1

AND DEL_FLAG = 'N'

AND RUN_DATE <= CAST ( '2023-06-11' || ' 00:00:00' AS TIMESTAMP )

GROUP BY

PROD_EN_NAME,

RUN_DATE

)

SELECT

PROD_EN_NAME,

PROD_LIFE_CYCLE_STATUS

FROM T

WHERE

(PROD_EN_NAME, RUN_DATE) IN (SELECT PROD_EN_NAME, MAX(RUN_DATE) FROM T GROUP BY PROD_EN_NAME)

改写解析：这里先把数据根据原SQL中row_number() over()的partition列和order列进行去重，由于原SQL未定义LIFE_CYCLE的排序方式，改写既可以使用MAX也可以使用MIN函数来进行聚合。然后再对去重后的数据进行过滤，过滤条件显然。

使用这种修改方法，修改前后的全量执行计划已在附件中给出。

这种改写方式解决了上层算子等窗口函数的问题。我们发现，一些业务场景下对不涉及聚合的其它列，比如上面例子中的LIFE_CYCLE并不敏感，且还需要进行进一步聚合的，那么对本层子查询中的去重其实没有硬性需求。可以进一步去除这层去重。

WITH T AS (

SELECT

PROD_EN_NAME,

LIFE_CYCLE AS PROD_LIFE_CYCLE_STATUS,

RUN_DATE

FROM

DMISC.DM_DIM_INV_PROD_ATTRI_SNAP_D

WHERE

DATA_TYPE = 1

AND DEL_FLAG = 'N'

AND RUN_DATE <= CAST ( '2023-06-11' || ' 00:00:00' AS TIMESTAMP )

)

SELECT

PROD_EN_NAME,

PROD_LIFE_CYCLE_STATUS

FROM T

WHERE

(PROD_EN_NAME, RUN_DATE) IN (SELECT PROD_EN_NAME, MAX(RUN_DATE) FROM T GROUP BY PROD_EN_NAME)

改写后执行计划如下：

可以看到，执行计划中虽然51层算子只快了200ms，但由于减少阻塞，1~7层算子的执行时间缩短了，总体比原先快了约480ms。

附件：供应链-88-PLAN.txt
附件：供应链-88-改-PLAN.txt

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10307126

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

3招解决时序数据高基数难题，性能多维度提升！

本文分享自华为云社区《DTSE Tech Talk | 3招解决时序数据高基数难题，性能多维度提升！》，作者：华为云开源。本期《openGemini全新列存引擎，为您解决时序数据高基数难题》的主题直播中，华为云开源DTSE技术布道师&数据库创新Lab技术专家黄飞腾，与开发者朋友们分享了时序数据库的特点和遥测数据应用场景下的优势，通过解析openGemini的框架引出了数据库行业长期存在的一大痛点—由于高基数导致的性能大幅下降，并向大家介绍了openGemini时序数据库针对这一难题而开发的列存引擎是如何有效改善高基数带来的不利影响。为什么面对海量遥测数据，时序数据库才是更佳选择？市面上有很多不同类型的数据存储系统，它们在不同场景具有不同的优势和局限性。那海量遥测数据场景下，我们应该选择什么类型的数据库呢？先感受一下遥测数据的庞大，全国每天光智能电表就能生成500亿条记录，10万辆车的企业每天采集约1PB数据。海量的数据产生后给存储带来了巨大的压力，传统数据库已不能满足如今的实际业务需求。因此，面向运维监控、物联网等众多领域，专注海量遥测数据存储与分析的时序数据库应运而生。...

2023-11-27

400

阅识风云是华为云信息大咖，擅长将复杂信息多元化呈现，其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。摘要：勒索病毒是一种极具破坏性、传播性的恶意软件，勒索手段也逐步发展为加密数据、威胁泄露敏感数据、DDoS攻击威胁和供应链攻击等多阶段勒索。近期某银行的美国子公司发布公告被勒索攻击，数十亿美元的业务受到影响。一旦被勒索，会严重影响公司运作、数据安全以及公司声誉。本文分享自华为云社区《云小课｜HSS教您如何应对LockBit勒索事件》，作者：阅识风云。近期热点勒索事件 2023年11月10日，某银行的美国全资子公司在官网发布声明称11月8日遭受了勒索软件攻击导致部分系统中断。并且11月9日LockBit勒索组织公开确认对此次攻击负责。LockBit是一种勒索软件家族，最初出现在2019年，目前已经升级至LockBit3.0，已发展成为一种具有高度定制化和复杂特性的勒索软件，并提供勒索软件即服务（RaaS）能力，是2023年最多产的勒索软件组织，其受害者名单不乏世界知名企业和机构，覆盖金融服务、食品和农业、教育、...

2023-11-28

357

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。