GaussDB数据库SQL系列-子查询

2023-08-30 570

在数据库技术领域，SQL（结构化查询语言）是一种用于管理关系数据库的标准语言。它允许用户从数据库中检索、插入、更新和删除数据，以及执行各种高级的数据操作。

在本文中，我们将重点介绍GaussDB SQL中的子查询功能。子查询是SQL中的一种重要技术，它允许我们在一个查询中嵌套另一个查询，从而实现更复杂的数据查询和分析。

二、GaussDB SQL子查询表达式

1、EXISTS/NOT EXISTS

EXISTS/NOT EXISTS是SQL中的语法，SQL 会首先执行子查询，然后根据子查询的结果是否满足条件来决定是否继续执行主查询。如果子查询返回至少一行数据，则 EXISTS 条件与主查询结合使用并被视为满足。NOT EXISTS 则相反，它只会在子查询没有返回任何数据行时才会被视为满足。

EXISTS的参数是一个任意的SELECT语句，或者说子查询。系统对子查询进行运算以判断它是否返回行。如果它至少返回一行，则EXISTS结果就为"真"；如果子查询没有返回任何行， EXISTS的结果是"假"。这个子查询通常只是运行到能判断它是否可以生成至少一行为止，而不是等到全部结束。

语法：WHERE column_name EXISTS/NOT EXISTS (subquery)

2、IN/NOT IN

IN 和 NOT IN 是 SQL 中的子查询运算符，用于测试某个给定的比较值是否存在于某一组值里。如果外层查询里的行与子查询返回的某一个行相匹配，那么 IN 的结果为真。如果外层查询里的行与子查询返回的所有行都不匹配，那么 NOT IN 的结果为真。

语法：WHERE column_name IN/NOT IN (subquery)

3、ANY/SOME

ANY 和 SOME 都是用于子查询中的关键字。 ANY 表示子查询中的任何值都可以与外部查询中的值匹配。 SOME 与 ANY 相同，只是在语法上的差别。

右边的子查询，它必须只返回一个字段。左边表达式使用operator对子查询结果的每一行进行一次计算和比较（=、<>、<、<=、>、>=），其结果必须是布尔值。如果至少获得一个真值，则ANY结果为“真”。如果全部获得假值，则结果是“假”（包括子查询没有返回任何行的情况）。

语法：WHERE column_name operator ANY/SOME (subquery)

4、ALL

右边的子查询，它必须只返回一个字段。左边表达式使用operator对子查询结果的每一行进行一次计算和比较（=、<>、<、<=、>、>=），其结果必须是布尔值。如果全部获得真值，ALL结果为"真"（包括子查询没有返回任何行的情况）。如果至少获得一个假值，则结果是"假"。

语法：WHERE column_name operator ALL (subquery)

三、GaussDB SQL子查询实验示例

在接下来的内容中，我们将以GaussDB数据库为实验平台，通过示例来演示如何利用这些子查询。

1、创建实验表

--课程表：course(cid,cname,teid)
--cid 课程编号,cname 课程名称,tid 教师编号

--创建course表
CREATE TABLE course(cid VARCHAR(10),cname VARCHAR(10),teid VARCHAR(10));

--初始化
INSERT INTO course VALUES('01' , '语文' , '02');
INSERT INTO course VALUES('02' , '数学' , '01');
INSERT INTO course VALUES('03' , '英语' , '03');

--查看结果
SELECT * FROM course;

--教师表teacher(teid,tname)
--tid 教师编号,tname 教师姓名

--创建teacher表
CREATE TABLE teacher(teid VARCHAR(10),tname VARCHAR(10));

--初始化数据
INSERT INTO teacher VALUES('01' , '张老师');
INSERT INTO teacher VALUES('02' , '李老师');
INSERT INTO teacher VALUES('03' , '王老师');
INSERT INTO teacher VALUES('04' , '赵老师');

--查看
SELECT * FROM teacher;

2、EXISTS/NOT EXISTS示例

--查询在course表中的教师记录
SELECT * FROM teacher WHERE EXISTS (SELECT * FROM course WHERE course.teid = teacher.teid);

--查询没有在course表中的教师记录
SELECT * FROM teacher WHERE NOT EXISTS (SELECT * FROM course WHERE course.teid = teacher.teid);

3、IN/NOT IN 示例

--根据教师id匹配course表
SELECT * FROM course WHERE teid IN (SELECT teid FROM teacher );

--取不在course表的教师信息
SELECT * FROM teacher WHERE teid NOT IN (SELECT teid FROM course );

4、ANY/SOME 示例

--左侧主句与右侧子查询进行字段比对，获取需要的结果集
SELECT * FROM course WHERE teid < ANY (SELECT teid FROM teacher where teid<>'04');
--或 
SELECT * FROM course WHERE teid < some (SELECT teid FROM teacher where teid<>'04');

Tip：此示例主要展示ANY/SOME的查询效果，实际应用请结合具体场景使用。

5、ALL示例

--teid列中的值必须小于要评估为true的集合中的最小值。
SELECT * FROM course WHERE teid < ALL(SELECT teid FROM teacher WHERE teid<>'01');

--teidc列中的值必须大于要评估为true的集合中的最大值。
SELECT * FROM teacher WHERE teid > ALL(SELECT teid FROM course);

Tip：此示例主要展示ALL的查询效果，实际应用请结合具体场景使用。

四、注意事项及建议

禁止一条SQL语句中，出现重复子查询语句。
少用标量子查询（标量子查询指结果为1个值，并且条件表达式为等值的子查询）。
避免在SELECT目标列中使用子查询，可能导致计划无法下推影响执行性能。
子查询嵌套深度建议不超过2层。由于子查询会带来临时表开销，过于复杂的查询应考虑从业务逻辑上进行优化。

五、小结

子查询可以在 SELECT 语句中嵌套其他查询，从而实现更复杂的查询。子查询还可以在 WHERE 子句中使用其他查询的结果，从而更好地过滤数据。但是子查询可能会导致查询性能问题和代码难阅读和理解。所以在GaussDB等数据库中使用SQL子查询时，请结合实际业务情况进行操作。

——结束

微信关注我们

原文链接：https://my.oschina.net/gaussdb/blog/10105622

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

破局主键重复问题的坎坷路 | 京东物流技术团队

伴随着业务的不断发展，逐渐由单库单表向分库分表进行发展。在这个过程中不可避免的一个问题是确保主键要的唯一性，以便于后续的数据聚合、分析等等场景的使用。在进行分库分表的解决方案中有多种技术选型，大概分为两大类客户端分库分表、服务端分库分表。例如 Sharding-JDBC、ShardingSphere、 MyCat、 ShardingSphere-Proxy、Jproxy(京东内部已弃用)等等。在这个燥热的夏天，又突然收到告警，分库分表的主键冲突了，这还能忍？不，坚决不能忍，必须解决掉！后面咱们慢慢道来是如何破局的，如何走了一条坎坷路…… 翻山第一步咱们的系统使用的是ShardingSphere进行分库分表的，大概的配置信息如下：（出于信息的安全考虑，隐藏了部分信息，只保留的部分内容，不要在意这些细节能说明问题即可） <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.o...

2023-08-30

392

一前言对于一个类别特征，如果这个特征的取值非常多，则称它为高基数（high-cardinality）类别特征。在深度学习场景中，对于类别特征我们一般采用Embedding的方式，通过预训练或直接训练的方式将类别特征值编码成向量。在经典机器学习场景中，对于有序类别特征，我们可以使用LabelEncoder进行编码处理，对于低基数无序类别特征（在lightgbm中，默认取值个数小于等于4的类别特征），可以采用OneHotEncoder的方式进行编码，但是对于高基数无序类别特征，若直接采用OneHotEncoder的方式编码，在目前效果比较好的GBDT、Xgboost、lightgbm等树模型中，会出现特征稀疏性的问题，造成维度灾难，若先对类别取值进行聚类分组，然后再进行OneHot编码，虽然可以降低特征的维度，但是聚类分组过程需要借助较强的业务经验知识。本文介绍一种针对高基数无序类别特征非常有效的预处理方法：平均数编码（Mean Encoding）。在很多数据挖掘类竞赛中，有许多人使用这种方法取得了非常优异的成绩。二原理平均数编码，有些地方也称之为目标编码（Target Enc...

2023-08-30

442

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。