[Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来-低调大师

[Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来

2017-06-19 693

随着Spark SQ的引入以及Hive On Apache Spark的新功能（HIVE-7292）的引入，我们对这两个项目的立场以及它们与Shark的关系有了很多的关注。在今天的Spark Summit上，我们宣布我们正在停止Shark的开发，并将资源全部集中在Spark SQL上，这将为现有Shark用户提供一个Shark特色的圈子(will provide a superset of Shark’s features for existing Shark users to move forward)。特别是，Spark SQL将提供从Shark 0.9服务器进行无缝升级途径，以及与Spark程序集成的新功能。

1. Shark

3年前Shark项目开始时，Hive（MapReduce）是Hadoop上SQL的唯一选择。Hive将SQL编译成可扩展的MapReduce作业，并可以使用各种格式（通过其SerDes）。但是，它的性能不如理想。为了交互式查询，组织部署了昂贵的专有企业数据仓库（EDW），这些仓库需要严格且冗长的ETL管道( organizations deployed expensive, proprietary enterprise data warehouses (EDWs) that required rigid and lengthy ETL pipelines)。

Hive和EDW之间的表现形成了鲜明的对比，导致了行业内一个巨大的争议，质疑通用数据处理引擎查询处理的固有缺陷。许多人认为SQL交互需要为查询处理提供一个昂贵的专门的运行时构建（例如，EDW）(Many believed SQL interactivity necessitates an expensive, specialized runtime built for query processing)。Shark将成为第一个基于Hadoop系统的交互式SQL之一，是唯一一个构建在通用运行框架（Spark）之上(Shark became one of the first interactive SQL on Hadoop systems, and was the only one built on top of a general runtime (Spark))。It demonstrated that none of the deficiencies that made Hive slow were fundamental, and a general engine such as Spark could marry the best of both worlds: it can be as fast as an EDW, and scales as well as Hive/MapReduce.

2. 从Shark到Spark SQL

Shark建立在Hive代码库上，通过交换Hive的物理执行引擎部分来实现性能提升(swapping out the physical execution engine part of Hive)。虽然这种方法使Shark用户能够加快其Hive查询，但Shark继承了Hive中庞大而复杂的代码库，从而难以优化和维护。随着我们推动性能优化的边界，并将复杂分析与SQL集成，我们受到为MapReduce设计而遗留的限制。

正是由于这个原因，我们将结束Shark作为一个单独项目的开发，并将所有开发资源转移到Spark的新组件Spark SQL上。我们正在将我们在Shark中学到的内容应用到Spark SQL中，充分利用Spark的强大功能。这种新方法使我们能够更快地创新，并最终为用户带来更好的体验。

对于SQL用户，Spark SQL提供了最先进的SQL性能，并保持与Shark/Hive的兼容性。特别是像Shark一样，Spark SQL支持现有所有Hive数据格式，用户自定义函数（UDF）和Hive metastore。随着将在Apache Spark 1.1.0中引入的功能，Spark SQL在TPC-DS性能方面比Shark好几乎一个数量级。

对于Spark用户，Spark SQL可以处理（半）结构化数据(Spark SQL becomes the narrow-waist for manipulating (semi-) structured data)，以及从提供schema的数据源（如JSON，Parquet，Hive或EDW）中提取数据。它真正统一了SQL和复杂分析，允许用户混合和匹配SQL以及允许使用更多的命令式编程API进行高级分析。

对于开源黑客，Spark SQL提出了构建查询计划者的一种新颖优雅的方式。在这个框架下添加新的优化是非常容易的。我们惊讶于开源社区对Spark SQL所展示出的支持和热情，这在很大程度上得益于这一新设计。经过三个月的时间，40多个捐助者已经为此编写了代码。

3. Hive On Spark

虽然Spark SQL正在成为SQL on Spark的标准，但是我们确实意识到许多公司以及组织Hive的投资。然而，这些组织中的很多也渴望迁移到Spark。Hive社区为该项目提出了一项新举措，将Spark添加为Hive的执行引擎之一。对于这些组织，这项工作将为他们将执行迁移到Spark提供一条明确的途径。我们很高兴与Hive社区合作和支持，为最终用户提供平滑的体验。

总之，我们坚信Spark SQL将不仅是SQL，而且还是Spark进行结构化数据处理的未来。

原文：https://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-of-sql-on-spark.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/632153

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深入浅出 spring-data-elasticsearch - 基本案例详解（三

『风云说：能分享自己职位的知识的领导是个好领导。』运行环境：JDK 7 或 8，Maven 3.0+ 技术栈：SpringBoot 1.5+， Spring Data Elasticsearch 1.5+ ，ElasticSearch 2.3.2 本文提纲一、spring-data-elasticsearch-crud 的工程介绍二、运行spring-data-elasticsearch-crud 工程三、spring-data-elasticsearch-crud 工程代码详解一、spring-data-elasticsearch-crud 的工程介绍 spring-data-elasticsearch-crud 的工程，介绍 Spring Data Elasticsearch 简单的 ES 操作。Spring Data Elasticsearch 可以跟 JPA 进行类比。其使用方法也很简单。二、运行spring-data-elasticsearch-crud 工程注意的是这里使用的是 ElasticSearch 2.3.2。是因为版本对应关系 https:/...

2017-06-19

698

阿里云E-Mapreduce动态: ECM功能上线北京region，用户可以通过EMR-3.2.0版本创建新集群体验，ECM提供组件的配置修改/起停等操作资讯 DigitalGlobe借助亚马逊AWS Snowmobile迈向云端DigitalGlobe是AWS Snowmobile数据传输服务的全球第一位、也是目前为止最大的一位客户。当数据摄取完成后，在DigitalGlobe历史上由任何卫星拍摄到的每张图像都将联网上传至AWS。一文看懂真实的英国大数据产业以及创业图谱前不久刚刚落幕的贵阳大数据博览会上，英国国际贸易部携20家英国大数据领域内的优秀企业和学术研究机构来华，并在“2017中英大数据合作交流·英国日”期间，分享了英国在大数据行业的创新和独特之处。技术 2017年Apache Spark两大发展方向：深度学习和提升实时流性

2017-06-19

800

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。