SQL、Pandas和Spark：常用数据查询操作对比-低调大师

SQL、Pandas和Spark：常用数据查询操作对比

2021-04-09 915

本文首先介绍SQL查询操作的一般流程，对标SQL查询语句的各个关键字，重点针对Pandas和Spark进行介绍，主要包括10个常用算子操作。

01 SQL标准查询

谈到数据，必会提及数据库;而提及数据库，则一般指代关系型数据库(RMDB)，操作关系型数据库的语言则是SQL(Structured Query Language)。SQL本质上仍然属于一种编程语言，并且有着相当悠久的历史，不过其语法特性却几乎没怎么变更过，从某种意义上讲这也体现了SQL语言的过人之处。

在最新TIOBE排行榜中，SQL位居第10位

一般而言，一句标准的SQL语句按照书写顺序通常含有如下关键词：

select：指定查询字段
distinct：对查询结果字段进行去重
from：明确查询的数据库和表
join on：指定查询数据源自多表连接及条件
where：设置查询结果过滤条件
group by：设置分组聚合统计的字段
having：依据聚合统计后的字段进一步过滤
order by：设置返回结果排序依据
limit：限定返回结果条数

这是一条SQL查询语句中所能涉及的主要关键字，经过解析器和优化器之后，最后的执行过程则又与之差别很大，执行顺序如下：

from：首先找到待查询的表
join on：如果目标数据表不止一个，则对多表建立连接关系
where：根据查询条件过滤数据记录
group by：对过滤结果进行分组聚合
having：对分组聚合结果进行二次过滤
select：对二次过滤结果抽取目标字段
distinct：根据条件进行去重处理
order by：对去重结果进行排序
limit：仅返回排序后的指定条数记录

曾经，个人一度好奇为何不将SQL语句的书写顺序调整为与执行顺序一致，那样更易于理解其中的一些技术原理，但查询资料未果后，就放弃了……

当然，本文的目的不是介绍SQL查询的执行原理或者优化技巧，而仅仅是对标SQL查询的几个关键字，重点讲解在Pandas和Spark中的实现。

02 Pandas和Spark实现SQL对应操作

以下按照SQL执行顺序讲解SQL各关键字在Pandas和Spark中的实现，其中Pandas是Python中的数据分析工具包，而Spark作为集Java、Scala、Python和R四种语言的通用分布式计算框架，本文默认以Scala语言进行讲述。

1)from。由于Python和Scala均为面向对象设计语言，所以Pandas和Spark中无需from，执行df.xxx操作的过程本身就蕴含着from的含义。

2)join on。join on在SQL多表查询中是很重要的一类操作，常用的连接方式有inner join、left join、right join、outer join以及cross join五种，在Pandas和Spark中也都有相应关键字。

Pandas：Pandas实现join操作有两个主要的API：merge和join。其中merge是Pandas的顶层接口(即可直接调用pd.merge方法)，也是DataFrame的API，支持丰富的参数设置，主要介绍如下：

 
 
  
  def merge( 
  
      left,  # 左表 
  
      right,  # 右表 
  
      how: str = "inner",  # 默认连接方式：inner 
  
      on=None,  # SQL中on连接一段，要求左表和右表中 公共字段 
  
      left_on=None,  # 设置左表连接字段 
  
      right_on=None,  # 设置右表连接字段 
  
      left_index: bool = False,  # 利用左表索引作为连接字段 
  
      right_index: bool = False,  # 利用右表索引作为连接字段 
  
      sort: bool = False,  # join结果排序 
  
      suffixes=("_x", "_y"),  # 非连接字段有重名时，可s何止后缀 
  
      copy: bool = True,  
  
      indicator: bool = False, 
  
      validate=None, 
  
  ) -> "DataFrame":

上述参数中，可以设置on连接条件的方式主要有3种：即若连接字段为两表共有字段，则可直接用on设置;否则可分别通过left_on和right_on设置;当一个表的连接字段是索引时，可设置left_index为True。

与merge操作类似，join可看做是merge的一个简化版本，默认以索引作为连接字段，且仅可通过DataFrame来调用，不是Pandas的顶级接口(即不存在pd.join方法)。

另外，concat也可通过设置axis=1参数实现横向两表的横向拼接，但更常用于纵向的union操作。

Spark：相较于Pandas中有多种实现两个DataFrame连接的方式，Spark中接口则要单一许多，仅有join一个关键字，但也实现了多种重载方法，主要有如下3种用法：

 
 
  
  // 1、两个DataFrame有公共字段，且连接条件只有1个，直接传入连接列名 
  
  df1.join(df2, "col") 
  
  // 2、有多个字段，可通过Seq传入多个字段 
  
  df1.join(df2, Seq("col1", "col2") 
  
  // 3、两个DataFrame中连接字段不同名，此时需传入判断连接条件 
  
  df1.join(df2, df1("col1")===df2("col2")) 
  
  // 注意，上述连接条件中，等于用===，不等于用=!=

3)where。数据过滤在所有数据处理流程中都是重要的一环，在SQL中用关键字where实现，在Pandas和Spark中也有相应的接口。

Pandas。Pandas中实现数据过滤的方法有多种，个人常用的主要是如下3类：

通过loc定位操作符+逻辑判断条件实现筛选过滤。loc是用于数据读取的方法，由于其也支持传入逻辑判断条件，所以自然也可用于实现数据过滤，这也是日常使用中最为频繁一种;
通过query接口实现，提起query，首先可能想到的便是SQL中Q，实际上pandas中的query实现的正是对标SQL中的where语法，在实现链式筛选查询中非常好用，具体可参考Pandas用了一年，这3个函数是我的最爱……
where语句，Pandas以API丰富而著称，所以自然是不会放过where关键字的，不过遗憾的是Pandas中的where和Numpy中的where一样，都是用于对所有列的所有元素执行相同的逻辑判断，可定制性较差。

Spark。Spark中实现数据过滤的接口更为单一，有where和filter两个关键字，且二者的底层实现是一致的，所以实际上就只有一种用法。但在具体使用中，where也支持两种语法形式，一种是以字符串形式传入一个类SQL的条件表达式，类似于Pandas中query;另一种是显示的以各列对象执行逻辑判断，得到一组布尔结果，类似于Pandas中loc操作。

4)group by。group by关键字用于分组聚合，实际上包括了分组和聚合两个阶段，由于这一操作属于比较规范化的操作，所以Pandas和Spark中也都提供了同名关键字，不同的是group by之后所接的操作算子不尽相同。

Pandas：Pandas中groupby操作，后面可接多个关键字，常用的其实包括如下4类：

直接接聚合函数，如sum、mean等;
接agg函数，并传入多个聚合函数;
接transform，并传入聚合函数，但不聚合结果，即聚合前有N条记录，聚合后仍然有N条记录，类似SQL中窗口函数功能，具体参考Pandas中groupby的这些用法你都知道吗?
接apply，实现更为定制化的函数功能，参考Pandas中的这3个函数，没想到竟成了我数据处理的主力

Spark：Spark中的groupBy操作，常用的包括如下3类：

直接接聚合函数，如sum、avg等;
接agg函数，并传入多个聚合算子，与Pandas中类似;
接pivot函数，实现特定的数据透视表功能。

5)having。在SQL中，having用于实现对聚合统计后的结果进行过滤筛选，与where的核心区别在于过滤所用的条件是聚合前字段还是聚合后字段。而这在Pandas和Spark中并不存在这一区别，所以与where实现一致。

6)select。选择特定查询结果，详见Pandas vs Spark：获取指定列的N种方式。

7)distinct。distinct在SQL中用于对查询结果去重，在Pandas和Spark中，实现这一操作的函数均为drop_duplicates/dropDuplicates。

8)order by。order by用于根据指定字段排序，在Pandas和Spark中的实现分别如下：

Pandas：sort_index和sort_values，其中前者根据索引排序，后者根据传入的列名字段排序，可通过传入ascending参数控制是升序还是降序。

Spark：orderBy和sort，二者也是相同的底层实现，功能完全一致。也是通过传入的字段进行排序，可分别配合asc和desc两个函数实现升序和降序。

 
 
  
  // 1、指定列+desc 
  
  df.orderBy(df("col").desc) 
  
  // 2、desc函数加指定列 
  
  df.orderBy(desc("col"))

9)limit。limit关键字用于限制返回结果条数，这是一个功能相对单一的操作，二者的实现分别如下：

Pandas：可分别通过head关键字和iloc访问符来提取指定条数的结果;

Spark：直接内置了limit算子，用法更接近SQL中的limit关键字。

10)Union。SQL中还有另一个常用查询关键字Union，在Pandas和Spark中也有相应实现：

Pandas：concat和append，其中concat是Pandas 中顶层方法，可用于两个DataFrame纵向拼接，要求列名对齐，而append则相当于一个精简的concat实现，与Python中列表的append方法类似，用于在一个DataFrame尾部追加另一个DataFrame;

Spark：Spark中直接模仿SQL语法，分别提供了union和unionAll两个算子实现两个DataFrame的纵向拼接，且含义与SQL中完全类似。

03 小节

对标SQL标准查询语句中的常用关键字，重点对Pandas和Spark中相应操作进行了介绍，总体来看，两个计算框架均可实现SQL中的所有操作，但Pandas实现的接口更为丰富，传参更为灵活;而Spark则接口更为统一，但一般也支持多种形式的方法重载。另外，Spark中的算子命名与SQL更为贴近，语法习惯也与其极为相似，这对于具有扎实SQL基础的人快速学习Spark来说会更加容易。

微信关注我们

原文链接：http://database.51cto.com/art/202104/656618.htm

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Lazarus黑客组织最新武器锁定南非货运公司

研究人员发现Lazarus黑客组织在针对货运行业的定向攻击中所采用了一种新的后门。知名电脑安全软件公司ESET表示，在针对南非一家货运和物流公司的攻击中发现了一个新的后门恶意软件，被称为Vyveva。虽然部署该恶意软件的初始攻击载体尚不清楚，但对感染该恶意软件的机器进行检查后发现，该恶意软件与Lazarus集团存在紧密联系。 Lazarus是一个朝鲜的高级持续性威胁(APT)组织。这个由国家支持的APT组织十分活跃，目前被认为与其有联系的事件有： WannaCry勒索软件爆发 8000万美元的孟加拉国银行抢劫案对韩国供应链发起攻击，进行加密货币盗窃 2014年的索尼黑客事件 ... 新发现的武器，在2018年就可能在使用 Vyveva是Lazarus武器库中最新发现的武器之一。该后门最早是在2020年6月被发现的，但至少从2018年开始就可能在使用。该后门能够窃取文件，从受感染的机器及其驱动器收集数据，远程连接到命令和控制(C2)服务器并运行任意代码。此外，该后门还使用虚假的TLS连接进行网络通信，通过Tor网络连接到其C2的组件，以及APT组织在过去的活动中采用的命令行执行...

2021-04-09

607

上一篇文章中我们详细介绍了 NumPy 的功能及用途，本章节着重介绍 NumPy 一个神奇的对象 Ndarray 以及 NumPy 数据类型，包括两者的用途，接下来就开启神奇之旅吧。标准安装的 Python 中用列表 (list) 保存一组值，它可以用来当作数组使用，不过由于列表的元素可以是任何对象，因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3]，需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。此外 Python 还提供了一个array模块，array对象和列表不同，它直接保存数值，和C语言的一维数组比较类似。但是由于它不支持多维，也没有各种运算函数，因此也不适合做数值运算。 NumPy 的诞生弥补了这些不足，NumPy提供了两种基本的对象：ndarray（N-dimensional array object）和 ufunc（universal function object）。ndarray (下文统一称之为数组)是存储单一数据类型的多维数组，而 ufunc 则是能够对数组进行处理的函数。一、NumPy Ndarra...

2021-04-08

798

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。