Spark SQL概念学习系列之SQL on Spark的简介（三）-低调大师

Spark SQL概念学习系列之SQL on Spark的简介（三）

2017-11-12 608

AMPLab 将大数据分析负载分为三大类型：批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。

　　大数据分析栈中需要满足用户 ad-hoc、reporting、 iterative 等类型的查询需求，也需要提供 SQL 接口来兼容原有数据库用户的使用习惯，同时也需要 SQL 能够进行关系模式的重组。完成这些重要的 SQL 任务的便是 Spark SQL 和 Shark 这两个开源分布式大数据查询引擎，它们可以理解为轻量级 Hive SQL 在 Spark 上的实现，业界将该类技术统称为 SQL on Hadoop。

　在 Spark 峰会 2014 上， Databricks 宣布不再支持 Shark 的开发，全力以赴开发Shark 的下一代技术 Spark SQL，同时 Hive 社区也启动了 Hive on Spark 项目，将 Spark作为 Hive（除 MapReduce 和 Tez 之外的）新执行引擎。根据伯克利的 Big Data Benchmark测试对比数据， Shark 的 In Memory 性能可以达到 Hive 的 100 倍，即使是On Disk 也能达到 10 倍的性能提升，是 Hive 强有力的替代解决方案。而作为 Shark 的进化版本的 Spark SQL，在 AMPLab 最新的测试中的性能已经超过 Shark。图 1 展示了 Spark SQL和 Hive on Spark 是新的发展方向。

　　　　　　　　　　　　　　图 1 Spark SQL 和 Hive on Spark 是新的发展方向

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5725020.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/371195

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark SQL概念学习系列之Spark SQL 优化策略（五）

查询优化是传统数据库中最为重要的一环，这项技术在传统数据库中已经很成熟。除了查询优化，Spark SQL 在存储上也进行了优化，从以下几点查看 Spark SQL 的一些优化策略。（1）内存列式存储与内存缓存表 Spark SQL 可以通过 cacheTable 将数据存储转换为列式存储，同时将数据加载到内存进行缓存。 cacheTable 相当于在分布式集群的内存物化视图，将数据进行缓存，这样迭代的或者交互式的查询不用再从 HDFS 读数据，直接从内存读取数据大大减少了 I/O 开销。列式存储的优势在于 Spark SQL 只需要读出用户需要的列，而不需要像行存储那样需要每次将所有列读出，从而大大减少内存缓存数据量，更高效地利用内存数据缓存，同时减少网络传输和 I/O 开销。数据按照列式存储，由于是数据类型相同的数据连续存储，能够利用序列化和压缩减少内存空间的占用。　（2）列存储压缩为了减少内存和硬盘空间占用， Spark SQL 采用了一些压缩策略对内存列存储数据进行压缩。 Spark SQL 的压缩方式要比 Shark 丰富很多，例如它 ...

2017-11-12

706

下图中描述了 Spark 的输入、运行转换、输出。在运行转换中通过算子对 RDD进行转换。算子是 RDD 中定义的函数，可以对 RDD 中的数据进行转换和操作。输入：在 Spark 程序运行中，数据从外部数据空间（例如， HDFS、 Scala 集合或数据）输入到 Spark，数据就进入了 Spark 运行时数据空间，会转化为 Spark 中的数据块，通过 BlockManager 进行管理。运行：在 Spark 数据输入形成 RDD 后，便可以通过变换算子 f liter 等，对数据操作并将 RDD 转化为新的 RDD，通过行动（Action）算子，触发 Spark 提交作业。如果数据需要复用，可以通过 Cache 算子，将数据缓存到内存。输出：程序运行结束数据会输出 Spark 运行时空间，存储到分布式存储中（如saveAsTextFile 输出到 HDFS）或 Scala 数据或集合中（ collect 输出到 Scala 集合，count 返回 Scala Int 型数据）。图 1 Spark 算子和数据空间 Spark的核心数据模型是RDD，但RDD是个抽象类，...

2017-11-12

635

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。