数仓中典型的几种不下推语句整改案例

2023-08-14 457

本文分享自华为云社区《GaussDB(DWS)性能调优：典型不下推语句整改案例》，作者：譡里个檔。

场景1：With-Recursive contains only values rte is not shippable

根因：递归语句的某个分支中没有FROM字句（只有 VALUES 或者类似 SELECT 1 这样的语句）

案例1：递归驱动分支没有FROM字句

原始语句

SELECT T.RPT_ITEM_ID, --报表项ID

T.RPT_ITEM_CODE,

T.USER_GROUP_CODE AS USER_GROUP_CODE --用户组

FROM BIF.BIF_RPT_ITEM_DEF_T T,

(WITH recursive cte AS (

SELECT DISTINCT TRIM(SUBSTR('' :: text, INSTR('', ',', 1, 1) + 1, INSTR('', ',', 1, 2) - INSTR('', ',', 1, 1) - 1)) AS cte_RPT_ITEM_CODE,

1 AS level

FROM (SELECT '') AS tb0



UNION ALL



SELECT DISTINCT TRIM(SUBSTR('' :: text, INSTR('', ',', 1, cte.level + 1) + 1, INSTR('', ',', 1, cte.level + 2) - INSTR('', ',', 1, cte.level + 1) - 1)),

cte.level + 1

FROM (SELECT '') AS tb0, cte

WHERE cte.level + 1 <= LENGTH('') - LENGTH(REPLACE('', ',', '')) - 1

)

SELECT

DISTINCT cte_RPT_ITEM_CODE AS RPT_ITEM_CODE

FROM cte

) T5

WHERE NVL(INSTR(T.RPT_ITEM_FREQUENCE, 'M'), 0) > 0

AND T.RPT_ITEM_CODE = NVL(T5.RPT_ITEM_CODE, T.RPT_ITEM_CODE)

AND T.RPT_ITEM_TYPE = 1 --是否是叶子报表项，1=是，0=否，基本报表项

AND T.ENABLE_FLAG = 1

AND T.VERSION = '202308' --使用快照,增加条件限制

ORDER BY T.RPT_ITEM_ID

改写语句

SELECT T.RPT_ITEM_ID, --报表项ID

T.RPT_ITEM_CODE,

T.USER_GROUP_CODE AS USER_GROUP_CODE --用户组

FROM BIF.BIF_RPT_ITEM_DEF_T T,

(WITH recursive cte AS (

SELECT DISTINCT TRIM(SUBSTR('' :: text, INSTR('', ',', 1, 1) + 1, INSTR('', ',', 1, 2) - INSTR('', ',', 1, 1) - 1)) AS cte_RPT_ITEM_CODE,

1 AS level

FROM generate_series(1, 1) AS tb0



UNION ALL



SELECT DISTINCT TRIM(SUBSTR('' :: text, INSTR('', ',', 1, cte.level + 1) + 1, INSTR('', ',', 1, cte.level + 2) - INSTR('', ',', 1, cte.level + 1) - 1)),

cte.level + 1

FROM (SELECT '') AS tb0, cte

WHERE cte.level + 1 <= LENGTH('') - LENGTH(REPLACE('', ',', '')) - 1

)

SELECT

DISTINCT cte_RPT_ITEM_CODE AS RPT_ITEM_CODE

FROM cte

) T5

WHERE NVL(INSTR(T.RPT_ITEM_FREQUENCE, 'M'), 0) > 0

AND T.RPT_ITEM_CODE = NVL(T5.RPT_ITEM_CODE, T.RPT_ITEM_CODE)

AND T.RPT_ITEM_TYPE = 1 --是否是叶子报表项，1=是，0=否，基本报表项

AND T.ENABLE_FLAG = 1

AND T.VERSION = '202308' --使用快照,增加条件限制

ORDER BY T.RPT_ITEM_ID

修改点比对

案例2：递归驱动分支没有FROM字句

原始语句

SELECT A.DYNM_COMP_ID,

DECODE(B.LINE_NO, 1, '202308', A.VERSION)

FROM BIF.BIF_DYNM_COMP_SOU_TBL_V A,

(WITH recursive cte AS (

SELECT 1 AS level

UNION ALL

SELECT cte.level + 1

FROM cte

WHERE cte.level + 1 < 3

)

SELECT

level as LINE_NO

FROM cte

) B

WHERE EXISTS (SELECT 1

FROM BIF.BIF_RPT_ITEM_DEF_MV RPT,

BIF.BIF_PUB_SUBJECT_AREA_T SBJ,

BIF.BIF_SNAPSHORT_SUBJECT_V TYP

WHERE A.DYNM_COMP_ID = RPT.DYNM_COMP_ID

AND RPT.VERSION = 'current'

AND RPT.SUBJECT_AREA_ID = SBJ.SUBJECT_AREA_ID

AND SBJ.SUBJECT_AREA_CODE =TYP.SUBJECT_CODE

AND TYP.SUBJECT_TYPE ='TAX')

AND A.VERSION = 'current'

改写语句

SELECT A.DYNM_COMP_ID,

DECODE(B.LINE_NO, 1, '202308', A.VERSION)

FROM BIF.BIF_DYNM_COMP_SOU_TBL_V A,

(SELECT

*

FROM generate_series(1, 2) AS cte(LINE_NO)

) B

WHERE EXISTS (SELECT 1

FROM BIF.BIF_RPT_ITEM_DEF_MV RPT,

BIF.BIF_PUB_SUBJECT_AREA_T SBJ,

BIF.BIF_SNAPSHORT_SUBJECT_V TYP

WHERE A.DYNM_COMP_ID = RPT.DYNM_COMP_ID

AND RPT.VERSION = 'current'

AND RPT.SUBJECT_AREA_ID = SBJ.SUBJECT_AREA_ID

AND SBJ.SUBJECT_AREA_CODE =TYP.SUBJECT_CODE

AND TYP.SUBJECT_TYPE ='TAX')

AND A.VERSION = 'current'

修改点比对

案例3：递归驱动分支是VALUES字句

原始语句

WITH RECURSIVE t(n) AS (

VALUES (1)

UNION ALL

SELECT

n+1

FROM t

WHERE n < (SELECT MAX(LENGTH(COMP_CODE)-LENGTH(REPLACE(COMP_CODE,',','')))+1 MAX_TOKENS

FROM (SELECT DEPT_CODE,

to_char(APPLICABLE_GEO_PC_CODE) COMP_CODE

FROM SDIHR.MDM_CDM_DEPT_ACT_INFO_T_3600)

)

)

SELECT n AS LVL FROM t

改写语句

WITH RECURSIVE t(n) AS (

SELECT * FROM generate_series(1, 1)

UNION ALL

SELECT

n+1

FROM t

WHERE n < (SELECT MAX(LENGTH(COMP_CODE)-LENGTH(REPLACE(COMP_CODE,',','')))+1 MAX_TOKENS

FROM (SELECT DEPT_CODE,

to_char(APPLICABLE_GEO_PC_CODE) COMP_CODE

FROM SDIHR.MDM_CDM_DEPT_ACT_INFO_T_3600)

)

)

SELECT n AS LVL FROM t

修改点比对

案例4：递归驱动分支是VALUES字句

原始语句

WITH RECURSIVE t(n) AS (

VALUES (1)

UNION ALL

SELECT

n+1

FROM t

WHERE n < (SELECT MAX(LENGTH(COMP_CODE)-LENGTH(REPLACE(COMP_CODE,',','')))+1 MAX_TOKENS

FROM (SELECT DEPT_CODE,

to_char(APPLICABLE_GEO_PC_CODE) COMP_CODE

FROM SDIHR.MDM_CDM_DEPT_ACT_INFO_T_3600))

)

SELECT n AS LVL FROM t

改写语句

SELECT

*

FROM generate_series(1, (SELECT MAX(LENGTH(COMP_CODE)-LENGTH(REPLACE(COMP_CODE,',','')))+1 MAX_TOKENS

FROM (SELECT DEPT_CODE,

to_char(APPLICABLE_GEO_PC_CODE) COMP_CODE

FROM SDIHR.MDM_CDM_DEPT_ACT_INFO_T_3600))

) AS t(lvl)

修改点比对

场景2：With-Recursive contains system table is not shippable

根因：递归语句的某个分支中没有FROM字句中只用系统表或者系统视图(DUAL也被视为系统视图)

案例1：递归驱动分支是FROM DUAL查询

原始语句

WITH recursive cte AS (

SELECT

TO_DATE(201701, 'YYYYMM') as level ,TO_DATE(20170131, 'YYYYMMDD') LASTDAY

FROM dual

UNION ALL

SELECT

ADD_MONTHS(cte.LEVEL, 1) AS PERIOD,

LAST_DAY(ADD_MONTHS(cte.LEVEL, 1)) AS LASTDAY

FROM cte WHERE cte.LEVEL <=SYSDATE

)

SELECT

TO_CHAR(cte.level,'YYYYMMDD') AS PERIOD , cte.LASTDAY

FROM cte

WHERE TO_CHAR(cte.level,'YYYYMMDD')<= TO_CHAR(SYSDATE,'YYYYMMDD')

改写语句

WITH recursive cte AS (

SELECT

TO_DATE(201701, 'YYYYMM') as level ,TO_DATE(20170131, 'YYYYMMDD') LASTDAY

FROM generate_series(1, 1)

UNION ALL

SELECT

ADD_MONTHS(cte.LEVEL, 1) AS PERIOD,

LAST_DAY(ADD_MONTHS(cte.LEVEL, 1)) AS LASTDAY

FROM cte WHERE cte.LEVEL <=SYSDATE

)

SELECT

TO_CHAR(cte.level,'YYYYMMDD') AS PERIOD , cte.LASTDAY

FROM cte

WHERE TO_CHAR(cte.level,'YYYYMMDD')<= TO_CHAR(SYSDATE,'YYYYMMDD')

修改点对比

场景3：SubPlan exec on CN can't be shipped

根因：某个子查询语句只能在CN上执行，通常是这个子查询有不下推因素，比如有系统表、系统视图调用，或者存在不下推函数等

案例1：子查询中系统表/系统视图查询

原始语句

WITH error_log AS NOT MATERIALIZED (

SELECT

upper(log_column_name) AS log_column_name,

log_error_code,

s.char_length AS data_length,

s.data_type,s.nullable

FROM (SELECT

distinct

unnest(string_to_array(bad_log_column_name,',')) AS log_column_name,

unnest(string_to_array(bad_log_error_code,',')) AS log_error_code

FROM stgltc.BAD_cfs_inv_invoice_ad_2500

) T,

(SELECT * FROM user_tab_columns WHERE table_name=lower('dlt_cfs_inv_invoice_ad_2500')) S

WHERE upper(T.log_column_name)=upper(S.column_name)

)

SELECT

CASE WHEN upper('ACTIVITY_NAME') IN (SELECT log_column_name FROM error_log WHERE data_type IN ('varchar','char','character','nchar','character varying','varchar2','nvarchar2','clob','text') AND log_error_code='22001'/*字符超长*/)

THEN SUBSTRB(ACTIVITY_NAME,0,(SELECT distinct DATA_LENGTH FROM error_log WHERE upper(log_column_name)=upper('ACTIVITY_NAME')))

ELSE ACTIVITY_NAME

END AS ACTIVITY_NAME,

CASE WHEN upper('ADJUSTMENT_ID') IN (SELECT log_column_name FROM error_log WHERE data_type IN ('varchar','char','character','nchar','character varying','varchar2','nvarchar2','clob','text') AND log_error_code='22001'/*字符超长*/)

THEN SUBSTRB(ADJUSTMENT_ID,0,(SELECT distinct DATA_LENGTH FROM error_log WHERE upper(log_column_name)=upper('ADJUSTMENT_ID')))

ELSE ADJUSTMENT_ID

END AS ADJUSTMENT_ID

FROM stgltc.BAD_cfs_inv_invoice_ad_2500

改写语句

-- 识别不下推的子查询为WITH error_log字句中的

-- SELECT * FROM user_tab_columns WHERE table_name=lower('dlt_cfs_inv_invoice_ad_2500')

--

-- 因为这部分为系统表查询，无论如何都不能下推，所以此处把这部分结果转储到一个中间表中

-- 中间表创建成行存表

CREATE TEMP TABLE s WITH(orientation=row) DISTRIBUTE BY ROUNDROBIN AS

SELECT * FROM user_tab_columns WHERE table_name=lower('dlt_cfs_inv_invoice_ad_2500')

-- 因为整个查询涉及到的表都是列存表，之后前面创建的临时表s为行存表

-- 所以此处加一个强制走向量化的hint

WITH error_log AS NOT MATERIALIZED (

SELECT

upper(log_column_name) AS log_column_name,

log_error_code,

s.char_length AS data_length,

s.data_type,s.nullable

FROM (SELECT

distinct

unnest(string_to_array(bad_log_column_name,',')) AS log_column_name,

unnest(string_to_array(bad_log_error_code,',')) AS log_error_code

FROM stgltc.bad_cfs_inv_invoice_ad_2500

) T,

pg_temp.S

WHERE upper(T.log_column_name)=upper(S.column_name)

)

SELECT /*+ set global(enable_force_vector_engine on)*/

CASE WHEN upper('ACTIVITY_NAME') IN (SELECT log_column_name FROM error_log WHERE data_type IN ('varchar','char','character','nchar','character varying','varchar2','nvarchar2','clob','text') AND log_error_code='22001'/*字符超长*/)

THEN SUBSTRB(ACTIVITY_NAME,0,(SELECT distinct DATA_LENGTH FROM error_log WHERE upper(log_column_name)=upper('ACTIVITY_NAME')))

ELSE ACTIVITY_NAME

END AS ACTIVITY_NAME,

CASE WHEN upper('ADJUSTMENT_ID') IN (SELECT log_column_name FROM error_log WHERE data_type IN ('varchar','char','character','nchar','character varying','varchar2','nvarchar2','clob','text') AND log_error_code='22001'/*字符超长*/)

THEN SUBSTRB(ADJUSTMENT_ID,0,(SELECT distinct DATA_LENGTH FROM error_log WHERE upper(log_column_name)=upper('ADJUSTMENT_ID')))

ELSE ADJUSTMENT_ID

END AS ADJUSTMENT_ID

FROM stgltc.bad_cfs_inv_invoice_ad_2500

修改点对比

场景4：Type of Record in TargetList can not be shipped

根因：输出列中存在record类型，这种类型的不下推一般是不会体现在最外层的输出列上，一般这类报错有两个场景

1.SQL书写逻辑错误，导致输出列上出现了（...）形式的输出列

2.SQL业务逻辑正确，这种场景需要了解业务含义，把record字段强转为text类型，然后再使用record字段的地方做特殊适配

案例1：输出列书写错误，出现（...）形式的输出列

原始语句

SELECT

d.id,

coalesce(d.period, 'snull') AS period,

(d.plan_unit_code, 'snull') AS plan_unit_code,

coalesce(d.product_type_model, 'snull') AS product_type_model,

coalesce(d.revision, 'snull') AS revision,

d.start_date

FROM (SELECT *

FROM cdcscm.cdc_mp_d_forecast_t_6120 t

WHERE t.cdc_timestamp > to_date('2023-07-06 00:00:00', 'yyyy-mm-dd hh24:mi:ss') - 7

AND t.cdc_timestamp < to_date('2023-08-08 00:00:00', 'yyyy-mm-dd hh24:mi:ss')

) t1,

sdiscm.mp_d_forecast_t_6120 d

WHERE (t1.audit_op_type = 'delete' AND t1.audit_op_option = 'before')

AND d.id = t1.id

改写语句

SELECT

d.id,

coalesce(d.period, 'snull') AS period,

coalesce(d.plan_unit_code, 'snull') AS plan_unit_code,

coalesce(d.product_type_model, 'snull') AS product_type_model,

coalesce(d.revision, 'snull') AS revision,

d.start_date

FROM (SELECT *

FROM cdcscm.cdc_mp_d_forecast_t_6120 t

WHERE t.cdc_timestamp > to_date('2023-07-06 00:00:00', 'yyyy-mm-dd hh24:mi:ss') - 7

AND t.cdc_timestamp < to_date('2023-08-08 00:00:00', 'yyyy-mm-dd hh24:mi:ss')

) t1,

sdiscm.mp_d_forecast_t_6120 d

WHERE (t1.audit_op_type = 'delete' AND t1.audit_op_option = 'before')

AND d.id = t1.id

修改点对比

备注：改写前后语句不等价，不等价的原因是因为原始SQL书写有问题，正确的写法是就是coalesce(d.plan_unit_code, 'snull') AS plan_unit_code。

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10095618

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

聊聊数据库中的 savepoint

从全局二级索引讲起故事要从全局二级索引开始讲起。当我们构建了一个全局二级索引之后，一条逻辑上的数据插入，就会变成两条物理上的数据插入：一条插入到主表，另一条插入到索引表。为了保证主表和索引表数据的一致性，我们往往需要开启分布式事务，再并行地插入两条数据。如果其中一条数据插入失败了，比如索引上出现了唯一键冲突，但主表的数据已经插了进去，怎么办呢？当然，我们可以简单粗暴地回滚整个事务，来保证数据的一致性。但有的时候，我们已经在事务里执行了大量的操作，这时候仅仅因为一条数据的插入失败，就要回滚整个事务，代价实在太大。对于单机 MySQL 来说，如果出现了这种插入 UK 报唯一键冲突的情况，会自动回滚这条插入的语句。至于是忽略报错继续执行事务，还是回滚整个事务，则交给业务方来决定。作为一款全面兼容 MySQL 的分布式数据库，PolarDB-X 自然也要具备这种特性。其实，不只是全局二级索引的情况，其他场景比如 batch insert/delete/update、广播表 DML 等都可能会遇到这种情况。聊聊 savepoint 如果要回滚单条或多条语句，而非回滚整个事务，我们自然想...

2023-08-14

402

本文作者：华为云GaussDB研发高级工程师藏琦 1.背景 GaussDB作为一款企业级分布式数据库，提供了“同城跨AZ双活、两地三中心、双集群强一致”等极致的高可用容灾能力。当某个数据库节点由于故障无法对外提供服务时，为了继续保证数据库服务的可用性，JDBC驱动会将业务后续的数据库连接请求发送到其它可用节点上。但故障发生后，已经与故障节点建立会话的连接无法自动切换到可用节点上，导致使用这些连接的业务单元发生报错。如果业务单元缺少连接重试或业务一致性校验，可能会引起应用中断，甚至业务数据不一致的问题，造成用户严重的业务损失。因此，华为云GaussDB数据库提供了一种在数据库故障情况下的客户端连接转移方案 —— ALT（Application Lossness Transparent，应用无损透明）。该方案的原理是，当数据库集群的某个节点由于故障无法对外提供服务，若此时集群内还存在其它可用节点，则将故障节点上的会话连接自动迁移到目标节点上，客户端无需再次发出连接请求，仍然可以继续执行数据库操作。整个过程中，客户端应用程序是无感知的，就像是经历了一次略有延迟的SQL请求处理，极大地提...

2023-08-14

885

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

数仓中典型的几种不下推语句整改案例

场景1：With-Recursive contains only values rte is not shippable

案例1：递归驱动分支没有FROM字句

案例2：递归驱动分支没有FROM字句

案例3：递归驱动分支是VALUES字句

案例4：递归驱动分支是VALUES字句

场景2：With-Recursive contains system table is not shippable

案例1：递归驱动分支是FROM DUAL查询

场景3：SubPlan exec on CN can't be shipped

案例1：子查询中系统表/系统视图查询

场景4：Type of Record in TargetList can not be shipped

案例1：输出列书写错误，出现（...）形式的输出列

聊聊数据库中的 savepoint

GaussDB技术解读系列之应用无损透明（ALT）

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Rocky Linux

Sublime Text

欢迎您来访！