Spark(三) -- Shark与SparkSQL
首先介绍一下Shark的概念
Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的
但是在Spark平台上,Shark的解析速度是Hive的几多倍
它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的
下面给出一张来自网上的Shark构架图
从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着HDFS上的文件
从图中绿色格子中可以看到,在Shark的整个构架中HiveQL的引擎还是占据着底层不可分割的部分,而Meta store的制度是Hive的根本,对Shark的重要性自然不言而喻
Shark中创建一张外部分区表的代码格式如下:
create [external] table [if not exists] table_name(col_name data_type,…)
[partitioned by (col_name data_type,…)]
[row format row_format]
[fields terminated by ‘\t’]
[lines terminated by ‘\n’]
[stored as file_format]
[location hdfs_path]
基本和Hive的格式没有什么差别
在Shark中还有一种高效的表,叫做缓存表
创建缓存表的方式如下:
create table xx_cached as select …
只要在表名的最后加上_cached即可
缓存表顾名思义,将查询到的数据生成表存储在缓存中,再次查询的时候速度将是几何提升的
Shark的用法:
在Spark的bin目录下使用shark脚本进入客户端程序
shark -f 要执行的.sql文件位置
执行完后可以就生成对应的表,可以再客户端中使用SQL语句进行查询
但是…
对比起Hive,如此好用性能又好的Shark
在Spark1.0版本开始,Shark被官方抛弃了…
Why?
原因就是Shark太过依赖于Hive了,导致执行任务的时候不能灵活的添加新的优化策略
于是Spark团队决定从头开发一套完全脱离Hive,基于Spark平台的数据仓库框架
于是SparkSQL诞生了
相对于Shark,SparkSQL有什么优势呢?
第一,也是根本SparkSQL产生的根本原因,其完全脱离了Hive的限制
第二,SparkSQL支持查询原生的RDD,这点就极为关键了。RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础
第三,能够在Scala中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用
第四,Catalyst。Catalyst能够帮助用户优化查询,即使用户的水平不高,写不出高效率的代码,Catalyst也能够进行一定程度的性能优化
简简单单的从以上几点就可以看出,SparkSQL和Shark相比,在性能和可用性方面肯定提升了几个等级
在大数据处理领域,批处理、实时处理和交互式查询是三个主要的处理方式,SparkSQL诞生就是为了解决Spark平台上的交互式查询问题,并且提供SQL接口兼容原有数据库用户的使用习惯
这里要重点注意一下Catalyst部分。
Catalyst是SparkSQL的调度核心,翻译SQL语句形成执行计划的过程中会对其进行优化并且仍然是遵循DAG图
执行流程:
- SqlParser 对SQL语法进行解析
- Analyzer进行属性和关系关联校验
- Optimizer进行启发式逻辑查询优化
- QueryPlanner将逻辑查询计划转化为物理查询计划
- prepareForExecution调整数据分布,转换为执行计划
- 进入Spark执行空间转为DAG图执行
下面给出一张网上的SparkSQL构架图:
可以明显的看到,在Shark中出于底层关键地位的Hive变成了顶层可变的程序模块
并且SparkSQL还支持JDBC/ODBC等数据库接口和JSON格式,Parquet格式的数据
支持Java ,Python等编程接口
SparkSQL运行流程图:
文章的最后给出一段SparkSQL的实例代码(Scala语言):
val sc:SparkContext //定义一个SparkContext类型的常量sc,SparkContext是Spark中提交作业的唯一通道 val sqlContext = new SqlContext(sc)//根据sc new一个SqlContext对象,该对象是处理SparkSQL的 import sqlContext._ //引入sqlContext中的所有方法,这些方法是处理SQL语句的基础 case class Person(name:String,age:String)//定义一个Person类,case class是后面数据能够生产SchemaRDD的关键 val people:RDD[Person] = sc.textFile("people.txt").map(_.split(",")).map(p => Person(p(0),p(1).toInt))//定义一个RDD数组,类型为Person,从people.txt文件中读取数据生成RDD,根据,进行split之后进行map操作,将每一行记录都生成对应的Person对象 people.registerAsTable("people")//将得到的RDD数组注册为表“people” val teenagers = sql("select name from people where age >= 10 && age <= 19")//定义要执行的sql语句 teenagers.map(t => "Name:" + t(0)).collect().foreach(println)//循环打印出teenagers中的每个对象的名字

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
【Hadoop】MAC下hadoop2.6安装以及执行wordcount
首先简单介绍下博主的配置环境 MAC 10.10.0 hadoop 2.6 JDK 1.6(可以在shell里用jdk -version查询) hadoop安装 安装的话推荐使用mac下面的brew,理由就是用brew安装的话,它会自动给帮你配置好相应的路径。当然也可以到官网下载,注意jdk和hadoop版本要对应。 brew install hadoop 安装好了之后,可以使用brew list hadoop 来查看。 位置应该是在:/usr/local/Cellar/hadoop/ 这时候就可以直接在shell里执行hadoop命令,是不是很方便。 执行wordcount 首先说一下,现在要执行的wordcount只是简单试验下hadoop是否能工作,并不是多线程的伪分布式,因为还没有配置,这个下一节会讲。 1.首先我们先建立以下数据源 在ha
- 下一篇
Spark(四) -- Spark工作机制
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/45728173 一、应用执行机制 一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程。 在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行。 1、应用执行过程中的基本组件和形态 Driver: 运行在客户端或者集群中,执行Application的main方法并创建SparkContext,调控整个应用的执行。 Application: 用户自定义并提交的Spark程序。 Job: 一个Application可以包含多个Job,每个Job由Action操作触发。 Stage: 比Job更小的单位,一个Job会根据RDD之间的依赖关系被划分为多个Stage,每个Stage中只存有RDD之间的窄依赖,即Transformation算子。 TaskSet: 每个Stage中包含的一组相同的Task。 Task: 最后被分发到Executor中执行的具体任务,执行Stage中包含的算子。 明确了一个...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Mario游戏-低调大师作品
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块