GaussDB(DWS)运维：导致SQL执行不下推的改写方案-低调大师

GaussDB(DWS)运维：导致SQL执行不下推的改写方案

2023-03-21 1128

摘要：本文就针对因USING子句的书写方式可能导致MERGE INTO语句的执行不下推的场景，对USING子句的SQL语句进行改写一遍，整个SQL语句可以下推。

本文分享自华为云社区《GaussDB(DWS)运维 -- values子句做MERGE数据源导致SQL执行不下推的改写方案》，作者：譡里个檔。

现网做实时接入的时候，有的时候会使用MERGE INTO语句实现类似UPSERT的功能。这种场景下MERGE INTO语句的USING部分的数据位VALUES子句，为了后续的SQL语句中描述方便，需要对VALUES子句的输出命名别名。USING子句的书写方式可能导致MERGE INTO语句的执行不下推，本文就针对因此导致的不下推的场景，对USING子句的SQL语句进行改写一遍，整个SQL语句可以下推。

预置条件

CREATE TABLE t1(name text, id INT) DISTRIBUTE BY HASH(id);

原始语句

MERGE INTO t1 USING (
 SELECT *
 FROM (VALUES ('json', 1), ('sam', 2)) AS val(name, id)
) tmp ON (t1.id = tmp.id)
WHEN MATCHED THEN
 UPDATE SET t1.name = tmp.name
WHEN NOT MATCHED THEN
 INSERT (name, id) VALUES(tmp.name, tmp.id);

SQL语句不下推，导致执行低效

postgres=# EXPLAIN VERBOSE MERGE INTO t1 USING (
postgres(#     SELECT *
postgres(#     FROM (VALUES ('json', 1), ('sam', 2)) AS val(name, id)
postgres(# ) tmp ON (t1.id = tmp.id)
postgres-# WHEN MATCHED THEN
postgres-#     UPDATE SET t1.name = tmp.name
postgres-# WHEN NOT MATCHED THEN
postgres-#     INSERT (name, id) VALUES(tmp.name, tmp.id);
                                                                            QUERY PLAN
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
  id |                       operation                       | E-rows | E-distinct | E-width | E-costs
 ----+-------------------------------------------------------+--------+------------+---------+---------
 1 | -> Merge on public.t1                                | 2 | | 54 | 0.08
 2 | ->  Nested Loop Left Join (3, 4)                   | 2 | | 54 | 0.08
 3 | -> Values Scan on "*VALUES*" | 2 | | 36 | 0.03
 4 | -> Data Node Scan on t1 "_REMOTE_TABLE_QUERY_" | 2 | | 18 | 0.00
 SQL Diagnostic Information
 ------------------------------------------------------------
 SQL is not plan-shipping
         reason: Type of Record in non-real table can not be shipped
   Predicate Information (identified by plan id)
 -------------------------------------------------
 1 --Merge on public.t1
         Node expr: : $10
 2 --Nested Loop Left Join (3, 4)
 Join Filter: (t1.id = "*VALUES*".column2)
 Targetlist Information (identified by plan id)
 -----------------------------------------------------------------------------------------------------------------------------------------------------------------
 1 --Merge on public.t1
         Node/s: All datanodes
         Remote query: UPDATE ONLY public.t1 SET name = $7, id = $8 WHERE t1.ctid = $5 AND t1.xc_node_id = $6
         Node/s: All datanodes
         Remote query: INSERT INTO public.t1 (name, id) VALUES ($9, $10)
 2 --Nested Loop Left Join (3, 4)
         Output: "*VALUES*".column1, "*VALUES*".column2, t1.name, t1.id, t1.ctid, t1.xc_node_id, "*VALUES*".column1, t1.id, "*VALUES*".column1, "*VALUES*".column2
 3 --Values Scan on "*VALUES*"
         Output: "*VALUES*".column1, "*VALUES*".column2
 4 --Data Node Scan on t1 "_REMOTE_TABLE_QUERY_"
         Output: t1.name, t1.id, t1.ctid, t1.xc_node_id
         Node/s: All datanodes
         Remote query: SELECT name, id, ctid, xc_node_id FROM ONLY public.t1 WHERE true
 ====== Query Summary =====
 --------------------------
 Parser runtime: 0.079 ms
 Planner runtime: 1.392 ms
 Unique SQL Id: 1657855173
(40 rows)

改写方案

MERGE INTO t1 USING (
 WITH val(name, id) AS(
 VALUES ('json', 1), ('sam', 2)
    )
 SELECT * FROM val
) tmp ON (t1.id = tmp.id)
WHEN MATCHED THEN
 UPDATE SET t1.name = tmp.name
WHEN NOT MATCHED THEN
 INSERT (name, id) VALUES(tmp.name, tmp.id);

改写后下推

postgres=# EXPLAIN VERBOSE MERGE INTO t1 USING (
postgres(#     WITH val(name, id) AS(
postgres(#         VALUES ('json', 1), ('sam', 2)
postgres(#     )
postgres(#     SELECT * FROM val
postgres(# ) tmp ON (t1.id = tmp.id)
postgres-# WHEN MATCHED THEN
postgres-#     UPDATE SET t1.name = tmp.name
postgres-# WHEN NOT MATCHED THEN
postgres-#     INSERT (name, id) VALUES(tmp.name, tmp.id);
                                                                      QUERY PLAN
------------------------------------------------------------------------------------------------------------------------------------------------------
  id |                  operation                   | E-rows | E-distinct | E-memory | E-width | E-costs
 ----+----------------------------------------------+--------+------------+----------+---------+---------
 1 | ->  Streaming (type: GATHER)                 | 1 | | | 54 | 1.56
 2 | -> Merge on public.t1                    | 2 | | | 54 | 1.15
 3 | ->  Streaming(type: REDISTRIBUTE)      | 2 | | 2MB      | 54 | 1.15
 4 | ->  Nested Loop Left Join (5, 7)    | 2 | | 1MB      | 54 | 1.11
 5 | ->  Subquery Scan on tmp | 2 | | 1MB      | 36 | 0.08
 6 | -> Values Scan on "*VALUES*" | 24 | | 1MB      | 36 | 0.03
 7 | ->  Seq Scan on public.t1        | 2 | | 1MB      | 18 | 1.01
 Predicate Information (identified by plan id)
 ---------------------------------------------
 4 --Nested Loop Left Join (5, 7)
 Join Filter: (t1.id = tmp.id)
 5 --Subquery Scan on tmp
         Filter: (Hash By tmp.id)
 Targetlist Information (identified by plan id)
 ----------------------------------------------------------------------------------------------------------------------------------------------------
 1 --Streaming (type: GATHER)
         Node/s: All datanodes
 3 --Streaming(type: REDISTRIBUTE)
         Output: tmp.name, tmp.id, t1.name, t1.id, t1.ctid, t1.xc_node_id, tmp.name, tmp.id, (CASE WHEN (t1.ctid IS NULL) THEN tmp.id ELSE t1.id END)
         Distribute Key: (CASE WHEN (t1.ctid IS NULL) THEN tmp.id ELSE t1.id END)
         Spawn on: All datanodes
         Consumer Nodes: All datanodes
 4 --Nested Loop Left Join (5, 7)
         Output: tmp.name, tmp.id, t1.name, t1.id, t1.ctid, t1.xc_node_id, tmp.name, tmp.id, CASE WHEN (t1.ctid IS NULL) THEN tmp.id ELSE t1.id END
 5 --Subquery Scan on tmp
         Output: tmp.name, tmp.id
 6 --Values Scan on "*VALUES*"
         Output: "*VALUES*".column1, "*VALUES*".column2
 7 --Seq Scan on public.t1
         Output: t1.name, t1.id, t1.ctid, t1.xc_node_id
         Distribute Key: t1.id
 ====== Query Summary =====
 -------------------------------
 System available mem: 3112960KB
 Query Max mem: 3112960KB
 Query estimated mem: 6336KB
 Parser runtime: 0.107 ms
 Planner runtime: 1.185 ms
 Unique SQL Id: 780461632
(44 rows)

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/8587074

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

喜马拉雅基于阿里云机器学习平台PAI-HybridBackend的深度学习模型训练优化实践

喜马拉雅作者：李超、陶云、许晨昱、胡文俊、张争光、赵云鹏、张玉静喜马拉雅AI云借助阿里云提供的HybridBackend开源框架，实现了其推荐模型在 GPU 上的高效训练。业务介绍推荐场景是喜马拉雅app的重要应用之一，它广泛应用于热点、猜你喜欢、私人FM、首页信息流、发现页推荐、每日必听等模块。这些模块都依赖于喜马拉雅AI云，这是一套从数据、特征、模型到服务的全流程一站式算法工具平台。推荐服务的一个核心诉求是能快速捕捉和反映用户不断变化的兴趣和当前热点，这就要求模型能在短时间内，以可控的成本完成对海量用户数据的训练。使用GPU等高性能硬件来加速模型训练已经成为CV， NLP等领域的行业标准；在使用稀疏训练数据的推荐场景下，国内外的各大厂商也在积极转向使用高性能GPU来替代传统的CPU训练集群，以提升训练的效率。喜马拉雅AI云借助阿里云机器学习平台PAI的开源框架HybridBackend（以下简称HybridBackend），实现了其推荐模型在 GPU 上的高效训练。在加速训练的同时， HybridBackend 框架高度易用，帮助其算法团队提升了开发效率。问题与挑战随...

2023-03-21

971

作者：京东物流张振勇 ListView是Android中最常用的视图之一，使用的频率仅仅次于几大基础布局，虽然由于使用性和扩展性等原因备受争议，且尽管后来出现了RecyclerView的替代方案，但是ListView仍然广泛地使用在我们的项目中。自从ListView出道至今，已经不知道衍生出了多少问题，然而很多人只关心功能功能的实现，却极少关注ListView过度调用导致的性能问题。在实际项目中，即使你正确使用了ViewHolder机制来优化ListView性能，但是在某些场景下依然会感觉卡顿严重，到底是什么原因导致的呢，我们来分析下 1 问题演示很多时候，我们在使用ListView的时候，都是随手写上一个layout_height=”wrap_content”或者layout_height=”match_parent”，非常常规的写法，乍一看，并没有什么问题，尤其是功能实现上也是无可挑剔。然而，就是layout_height=”wrap_content”这个属性是导致严重的性能问题的根源，下面以一个简单的例子说明一下：布局如上，接下来，假设ListView一共有5项，那么显...

2023-03-22

413

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。