Spark SQL概念学习系列之为什么使用 Spark SQL？（二）-低调大师

Spark SQL概念学习系列之为什么使用 Spark SQL？（二）

2017-11-12 655

　简单地说，Shark 的下一代技术是Spark SQL。

　　由于 Shark 底层依赖于 Hive，这个架构的优势是对传统 Hive 用户可以将 Shark 无缝集成进现有系统运行查询负载。

　　但是也看到一些问题：一方面，随着版本升级，查询优化器依赖于 Hive，不方便添加新的优化策略，需要进行另一套系统的学习和二次开发，学习成本很高。

　　另一方面， MapReduce是进程级并行，例如： Hive 在不同的进程空间会使用一些静态变量，当在同一进程空间进行多线程并行执行，多线程同时写同名称的静态变量会产生一致性问题，

所以Shark 需要使用另外一套独立维护的 Hive 源码分支。而为了解决这个问题 AMPLab 和Databricks 利用 Catalyst 开发了 Spark SQL。

Spark 的全栈解决方案为用户提供了多样的数据分析框架，机器学习、图计算、流计算如火如荼的发展和流行吸引了大批的学习者，为什么人们今天还是要重视在大数据环境下使用 SQL 呢？笔者认为主要有以下几点原因：
1）易用性与用户惯性。在过去的很多年中，有大批的程序员的工作是围绕着数据库 + 应用的架构来做的，因为 SQL 的易用性提升了应用的开发效率。程序员已经习惯了业务逻辑代码调用 SQL 的模式去写程序，惯性的力量是强大的，如果还能用原有的方式解决现有的大数据问题，何乐而不为呢？提供 SQL 和 JDBC 的支持会让传统用户像以前一样地书写程序，大大减少迁移成本。
2）生态系统的力量。很多系统软件性能好，但是未取得成功和没落，很大程度上因为生态系统问题。传统的 SQL 在 JDBC、 ODBC、 SQL 的各种标准下形成了一整套成熟的生态系统，很多应用组件和工具可以迁移使用，像一些可视化的工具、数据分析工具等，原有企业的 IT 工具可以无缝过渡。
3）数据解耦， Spark SQL 正在扩展支持多种持久化层，用户可以使用原有的持久化层存储数据，但是也可以体验和迁移到 Spark SQL 提供的数据分析环境下进行 BigData 的分析。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5725017.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/371199

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark SQL概念学习系列之Spark SQL 架构分析（四）

　Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似，只不过其执行器是在分布式环境中实现，并采用的 Spark 作为执行引擎。 Spark SQL 的查询优化是Catalyst，其基于 Scala 语言开发，可以灵活利用 Scala 原生的语言特性很方便进行功能扩展，奠定了 Spark SQL 的发展空间。 Catalyst 将 SQL 语言翻译成最终的执行计划，并在这个过程中进行查询优化。这里和传统不太一样的地方就在于， SQL 经过查询优化器最终转换为可执行的查询计划是一个查询树，传统 DB 就可以执行这个查询计划了。而 Spark SQL 最后执行还是会在 Spark 内将这棵执行计划树转换为 Spark 的有向无环图DAG 再执行。 1.Catalyst 架构及执行流程分析下图1所示是Catalyst 的整体架构。图 1 Spark SQL 查询引擎 Catalyst 的架构从图1 中可以看到整个 Catalyst 是 Spark SQL 的调度核心，遵循传统数据库的查询解析步骤，对 SQL 进行解析，转换为逻辑查询计划、物理查询计划，最终转换...

2017-11-12

649

目录结构、场景设想推荐目录架构结构： /opts/mysite/—/wordpress/—/wp-config.php—/index.php *wordpress 要加入到 .gitignore 中，/mysite/index.php 需要修改加载 wordpress 的路径 -场景 I 如果网站目录 mysite 是一个 repo（比如有 mysite/.git 目录）-场景 II 网站目录不是 repo ，而是部署为 detached worktree，即不存在 mysite/.git 方案 I（适用场景 I）把 wordpress 当成 git submodule 加入到 repo 中。http://blog.g-design.net/post/60019471157/managing-and-deploying-wordpress-with-git 方案 II（适用场景 II）此时可以把 wordpress 子目录设置成 git repo（即存在 mysite/wordpress/.git 目录）git clone git://github.com/wordpress/w...

2017-11-12

732

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。