数仓实践丨表扫描时过滤行数过多引起的性能瓶颈问题-低调大师

数仓实践丨表扫描时过滤行数过多引起的性能瓶颈问题

2023-11-08 432

本文分享自华为云社区《GaussDB(DWS)性能调优：表扫描时过滤行数过多引起的性能瓶颈问题案例》，作者： O泡果奶~ 。

1、【问题描述】

SQL语句执行过程中，对12亿数据量的大表进行扫描，过滤99%的数据仅留617行数据，性能瓶颈位于扫描该表这里。

2、【原始语句】

set search_path = 'bi_dashboard';

WITH F_SRV_DB_DIM_PRD_D AS (SELECT EXTERNAL_NAME FROM ( SELECT MKT_NAME EXTERNAL_NAME  
		       FROM BI_DASHBOARD.DM_MSS_ITEM_PRODUCT_D PRD
		      WHERE PRD.COMPANY_BRAND =any(array[string_to_array('HUAWEI',',')])
		            
	          AND PRD.MKT_NAME =any(array[string_to_array('畅享 60,畅享 50,畅享 60X,畅享 60 Pro,畅享 50 Pro,畅享 50z,nova 10z,畅享 20e,畅享20 Pro,畅享 10e,畅享10 Plus,畅享20 SE,畅享10,nova 11i,畅享20 Plus,畅享9 Plus,畅享20 5G,nova Y90,畅享 10S,nova Y70,畅享Z,畅享 9S,nova 8 SE 活力版,麦芒9 5G,Y9s,麦芒9 5G',',')])
	            ) WHERE EXTERNAL_NAME<>'SNULL' GROUP BY EXTERNAL_NAME),

V_PERIOD AS
 (
  SELECT PERIOD_ID AS PERIOD_ID_M,
         LEAST(TO_CHAR(PERIOD_END_DATE, 'YYYYMMDD'), '20230630') AS PERIOD_ID,
         PERIOD_ID AS DATES
    FROM BI_DASHBOARD.RPT_TML_ACCOUNT_PERIOD_D
   WHERE PERIOD_TYPE = 'M'
     AND PERIOD_ID BETWEEN 202207 AND 202306
 ),
 
V_DATA_BASE AS 
 (
  SELECT A.PERIOD_ID,
         IFNULL(A.CHANNEL_NAME, 'SNULL') AS DISTRIBUTOR_CHANNEL_NAME,
         SUM(A.SO_QTY_MTD) AS SO_QTY,
         SUM(DECODE(A.PERIOD_ID, 20230630, A.SO_QTY_MTD)) AS SO_QTY_ORDER
 select count(*)   FROM DM_MSS_CN_PC_REP_RP_ST_D_F A 
   INNER JOIN F_SRV_DB_DIM_PRD_D PRD 
      ON A.EXTERNAL_NAME = PRD.EXTERNAL_NAME
   WHERE 1 = 1 
     AND A.CHANNEL_ID IN ('100013388802') 
     AND A.ORG_KEY IN (10000651) 
    
     AND A.SALES_FLAG IN ('1', '0')
     AND A.PERIOD_ID IN (20220731,20221031,20220930,20220831,20221130,20221231,20230131,20230228,20230430,20230331,20230531,20230630)
     AND (A.SO_QTY_MTD <> 0) -- 过滤所有日期SO_QTY为0的数据
   GROUP BY A.PERIOD_ID,
            IFNULL(A.CHANNEL_NAME, 'SNULL')
 ),
 
V_DATA AS
 (
  SELECT PERIOD_ID,
         NVL(DISTRIBUTOR_CHANNEL_NAME, 'Total') AS DISTRIBUTOR_CHANNEL_NAME,
         SUM(SO_QTY) AS SO_QTY,
         SUM(SO_QTY_ORDER) AS SO_QTY_ORDER
    FROM V_DATA_BASE A
   GROUP BY GROUPING SETS ((PERIOD_ID), (PERIOD_ID, DISTRIBUTOR_CHANNEL_NAME))
 )

  SELECT STRING_AGG(P.DATES, ',' ORDER BY P.PERIOD_ID_M) AS PERIOD_LIST,
         B.DISTRIBUTOR_CHANNEL_NAME,
         STRING_AGG(NVL(TO_CHAR(ROUND(A.SO_QTY)), '0'), ',' ORDER BY P.PERIOD_ID_M) AS SO_QTY
    FROM V_PERIOD P
    FULL JOIN (SELECT DISTINCT DISTRIBUTOR_CHANNEL_NAME FROM V_DATA) B
      ON 1 = 1
    LEFT JOIN V_DATA A
      ON A.PERIOD_ID = P.PERIOD_ID
     AND A.DISTRIBUTOR_CHANNEL_NAME = B.DISTRIBUTOR_CHANNEL_NAME
   GROUP BY B.DISTRIBUTOR_CHANNEL_NAME
   ORDER BY DECODE(B.DISTRIBUTOR_CHANNEL_NAME, 'Total', 0, 'SOURCE IS NULL', 2, '源为空', 3, 'SNULL', 4,  1), 
            SUM(A.SO_QTY_ORDER) DESC NULLS LAST
   LIMIT 50 OFFSET 0

3、【性能分析】

从上图的performance执行计划中可以看出（完整执行计划放在附件一），该SQL语句慢在扫描表a（bi_dashboard.dm_mss_cn_pc_rep_rp_st_d_f_test）。扫描时过滤条件包括：sales_flag、so_qty_mtd、channel_id、org_key、period_id，该表上原本的局部聚簇键PCK只包含了period_id，并没有包括其余三个过滤条件之一，因此，可以调整PCK，以减少扫描表a的执行时间。

补充：局部聚簇键

局部聚簇 (Partial Cluster Key, 简称PCK)，列存储下一种通过min/max稀疏索引实现基表快速扫描的索引技术。Partial Cluster Key可以指定多列，但是一般不建议超过2列。PCK适用于列存大表点查询加速。

另外，查看语句中where条件中in值较多（12个），在DWS中，in后面的条件默认就只能是5个,超过6个就过滤不下推，此时，可以用or将12个值改写，

A.PERIOD_ID IN (20220731,20221031,20220930,20220831,20221130)
or A.PERIOD_ID IN (20221231,20230131,20230228,20230430,20230331)
or A.PERIOD_ID IN (20230531,20230630)

此时，SQL语句执行时间减少为487ms，完整performance计划如附件二所示。

附件：优化后—performance.txt 466.64KB
附件：优化前—performance.txt 449.47KB

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10141543

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

中国电信发布千亿级参数星辰语义大模型

在 2023 数字科技生态大会上，中国国电信发布千亿级参数规模的星辰语义大模型。同时，星辰多模态大模型、星辰系列行业大模型也一并亮相。根据介绍，星辰语义大模型是中国电信自研大模型的升级，由此前的百万参数量级升至千亿，升级后在抑制幻觉、外推窗口、交互体验、多轮理解能力上均有所提升。技术方面，星辰语义拥有超12亿风格数据、训练显存降低50%、推理提速4.5倍；中文意象理解生成能力提升30%；语义细粒度生成效果提升25%。在创意提效方面，星辰语义生产时间较此前生产工具减少92%；设计成本下降95%。中国电信方面表示，计划于今年12月开源百亿参数大模型；2024年4月开源千亿参数大模型，明年3月实现平台工具的开放。此外，中国电信还在会议现场陆续发布了一连串产品及平台，其中一站式智算服务平台“慧聚”可实现模型开发、任务管理、模型优化、服务部署、模型服务等多项功能；中国电信“天衍”量子计算云平台则具备指数级加速大模型训练速率的潜力。

2023-11-10

409

本文分享自华为云社区《昇腾CANN 7.0 黑科技：DVPP硬件加速训练数据预处理，友好解决Host CPU预处理瓶颈》，作者：昇腾CANN 。随着人工智能的快速发展，越来越多的应用场景需要使用机器学习和深度学习模型。AI网络模型的训练一般分成两个关键部分，一个是训练数据预处理，一个是模型训练，如何提升两者的处理性能成为提升模型训练性能的关键。一般情况下，数据加载预处理由host CPU处理，而模型训练计算是在NPU或GPU上处理的，两者一般并行执行，因此训练一次迭代的时间通常是两个处理时间的最大值。在NPU/GPU上进行模型训练计算，为了充分使用计算资源，一般采用批量数据处理方式，因此一般情况下为提升整体吞吐率，batch值会设置的比较大，常见的batch数为256/512，这样一来，对数据预处理处理速度要求就会比较高。对于AI框架来说，常见的应对方式是采用多个CPU进程并发处理，比如PyTorch框架的torchvision就支持多进程并发，使用多个CPU进程来进行数据预处理，以满足与NPU/GPU的计算流水并行处理。然而，随着NPU算力和性能的倍速提升，host CPU数...

2023-11-09

400

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。