Apache Spark 2.0简介，那些你想知道的事都在这里了-低调大师

Apache Spark 2.0简介，那些你想知道的事都在这里了

2017-07-31 568

今天介绍一篇文章，详细阐述了Apache Spark 2.0突出的三大优点：更容易、更快速、更智能。

两个月前，我们在Databricks上发布了Apache Spark 2.0的预览版本。从下面的图表可以看出，我们的10%的集群已经使用这个版本，同时客户试用了其新功能，并向我们提供了反馈意见。

随时间的推移各个不同版本Apache Spark的使用情况

现在，让我们一起更深入地了解Apache Spark 2.0的新功能。

更容易：ANSI SQL和简化版的API

我们为Spark感到特别自豪的一件事是简单、直观和表达性强的API。Spark 2.0继续了这一传统，其重点关注以下两大领域：

标准SQL支持
统一DataFrame/Dataset API。

在SQL方面，我们已经大大扩展了Spark的SQL支持功能，并引入了一个新的ANSI SQL解析器和对子查询(subqueries)的支持。现在，Spark 2.0已经可以运行TPC-DS的所有99个查询，这99个查询需要诸多的SQL：2003特性。因为SQL一直是Spark的主要接口之一，因此这些扩展功能大大降低了移植旧应用程序的工作量。

在程序化API方面，我们已经简化了Spark的API：

统一Scala和Java中DataFrames和Datasets：从Spark 2.0开始，DataFrame只是Dataset of Row的类型别名。Dataset类同时支持类型化方法(例如map、filter，groupByKey)和非类型化方法(例如select、groupBy)。此外，这个新的组合型Dataset接口是用于结构化流(Structured Streaming)的抽象。

由于编译时类型安全性在Python和R中并不是语言特性，因此Dataset的概念不适用于这些语言API。相反，DataFrame仍然是它们的主接口，并且类似于这些语言中的单节点数据帧概念。

SparkSession：这是一个新的切入点，取代了旧的SQLContext和HiveContext。对于DataFrame API的用户而言，Spark的一个常见的容易产生困惑的地方就是我们正在使用哪个“运行环境”。现在您可以使用SparkSession作为单一切入点，其同时涵括了SQLContext和HiveContext的功能。请注意，旧版本的SQLContext和HiveContext类仍然保持向后兼容性。

更容易、更高性能的累加器API(Accumulator API)：我们设计了一个新的累加器API(Accumulator API)，它具有更加简洁的类型层次结构，并支持原语类型的专门化。旧版本的Accumulator API已经弃用，但仍然保留了向后兼容性。

基于DataFrame的机器学习API成为主要的ML API：在Spark 2.0中，spark.ml包及其“管道”API将成为主要的机器学习API。虽然原始spark.mllib包被保留，但未来的开发将集中在基于DataFrame的API上。
机器学习管道持久化：用户现在可以利用Spark支持的所有编程语言保存和加载机器学习管道和模型。
以R语言编写的分布式算法：增加对以R语言编写的广义线性模型(Generalized Linear Models，GLM)、朴素贝叶斯(Naive Bayes)、生存回归(Survival Regression)和K均值(K-Means)的支持。

以R语言编写的用户定义函数(UDF)：增加对运行分区级别UDF(dapply和gapply)和超参数调整(lapply)的支持。

更快速：Apache Spark作为编译器

根据我们2015年Spark调查报告显示，91%的用户认为性能是Apache Spark最为重要的考虑因素。因此，性能优化始终是我们Spark开发的重点。在我们开始规划对Spark 2.0的性能改进之前，我们问了自己一个问题：虽然Spark已经相当快了，但是我们是否可以将其推向性能极限，使Spark 的运行速度再提升十倍呢?

带着这个问题我们从根本上重新思考了Spark物理执行层的设计方式。当您随便调查一个现代数据引擎(例如，Spark或其他MPP数据库)时，您会发现大多数CPU周期都消耗在无用的工作上，比如进行虚拟函数调用或读取/写入中间数据到CPU高速缓存或内存中。通过减少在这些无用工作中浪费的CPU周期数量来优化性能已经是现代编译器的一直以来关注的热点。

Spark 2.0中配备了第二代Tungsten引擎。这一代引擎是建立在现代编译器和MPP数据库的想法上，并且把它们应用于数据的处理过程中。其主要想法是通过在运行期间优化那些拖慢整个查询的代码到一个单独的函数中，消除虚拟函数的调用以及利用CPU寄存器来存放那些中间数据。我们把这些技术统称为“整段代码生成”(whole-stage code generation)。

为了有个直观的感受，我们记录下在Spark 1.6和Spark 2.0中在一个核上处理一行的操作时间(单位是纳秒)。下面的表格能够体现出Spark 2.0中新的Tungsten引擎的威力。Spark 1.6使用的表达式代码生成技术同样在今天的一些最先进的商业数据库中采用，但是您可以看到，许多运算符在采用了“整段代码生成”(whole-stage code generation)技术之后速度提升了一个数量级。

在本笔记本中，您可以看到“整段代码生成”(whole-stage code generation)技术的威力，在这里我们在一台机器上对10亿条记录进行Aggregation和Join操作。

那么在新的Tungsten引擎在端至端的查询表现又会怎样?我们比较了Spark 1.6和Spark 2.0在使用TPC-DS查询的基本分析，如下图所示：

除了“整段代码生成”(whole-stage code generation)可以提高性能之外，Catalyst优化器方面也做了许多的工作，比如改进通用查询优化(例如，为空性传播(nullability propagation));还有一个新的矢量化Parquet解码器，它使得Parquet的扫描吞吐量提高了3倍。

更智能：结构化流(Structured Streaming)

Spark Streaming在大数据领域第一次尝试将批处理和流计算进行了统一。在Spark 0.7版本开始引入的第一个流式API称为DStreams，它为开发者提供了几项强大的特性：恰好一次的语义、大规模容错、强一致性保证和高吞吐量。

然而，随着数百个真实的Spark Streaming部署之后，我们发现，需要实时作出决策的应用程序通常需要不止一个流引擎。他们需要深度地将批处理堆栈和流处理堆栈进行整合;需要和外部存储系统进行交互;以及需要应付业务逻辑变化的能力。其结果是，企业需要的不仅仅是一个流式引擎;相反，他们需要一个完整的堆栈，使他们能够开发终端到终端的“持续应用程序”。

Spark 2.0通过一种称为结构化流(Structured Streaming)的新API来处理这些使用案例。与现有的流系统相比，结构化流(Structured Streaming)主要做了以下三个方面的改进：

1、集成API与批处理作业。如需运行流计算，开发人员只需对DataFrame/Dataset API编写一个批处理计算，然后Spark会自动递增计算以便以流方式运行(即在数据进入时更新结果)。这种强大的设计意味着开发人员不必手动管理状态、故障或保持应用程序与批处理作业同步。相反，流式作业总能给出与同一数据上的批处理作业相同的答案。

2、与存储系统之间的事务交互。结构化流(Structured Streaming)能够在整个引擎和存储系统中保持容错性和一致性，从而可以很容易地编写应用程序，该应用程序能够更新用于服务的实时数据库，加入静态数据或在存储系统之间可靠地移动数据。

3、与Spark其余部分的丰富集成。结构化流(Structured Streaming)支持通过Spark SQL对流数据进行交互式查询，对静态数据进行连接，以及许多已经使用DataFrames的库，同时让开发人员构建完整的应用程序，而不仅仅是流管道。未来，期望与MLlib和其他库实现更多的集成。

作为实现这一愿景的第一步，Spark 2.0附带了一个初始的alpha版本的结构化流(Structured Streaming)，其扩展自DataFrame/Dataset API(令人惊讶的小!)。这个统一对现有的Spark用户比较容易适应，因为这让他们能够充分利用Spark批量处理API知识来解决实时中的新问题。其它主要功能将包括支持基于事件时间的处理、乱序/延时数据、交互式查询以及非流数据源和接收器的紧密集成。

此外，我们还更新了Databricks工作空间以支持结构化流(Structured Streaming)。例如，当启动流查询时，笔记本UI将自动显示其状态。

Streaming显然是一个非常宽泛的话题，所以敬请多关注，以了解Apache Spark 2.0中的结构化流(Structured Streaming)的更多详细信息。

本文作者：佚名

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/183001

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop正在走下坡路

长期以来，Hadoop 这个词铺天盖地，几乎成了大数据的代名词。三年之前，提起超越 Hadoop 这件事，似乎还显得难以想象。但三年后的今天，这一情况发生了一些改变。早在 2012 年，知名媒体 SiliconANGLE 就针对 Twitter 平台上的大数据专业人士做了一项调查。调查结果显示：这些专业人士日常谈论 NoSQL 等技术（如 MongoDB）的次数要远多于 Hadoop。这表明，至少在数据科学家的群体中，用 Hadoop 代指大数据似乎并不准确然而大多数人认为 Hadoop 已经是大数据最重要的技术之一，是大数据构建的基础。它还被利用在一些新的领域，如仓储系统。话虽如此，出人意料的是，它的适用性或多或少有点滞后。对此，IBM Software 的传道士 James Kobielus 说道：“ 2016 年，Hadoop 在大数据领域的下滑速度比我预期的要快得多。” 其中原因很难说清，但可将其理解为数据领域的惯有现象。Gartner 于 2015 年的调查显示，54% 的公司都没有计划投资 Hadoop，另外 44% 的公司表示已使用 Hadoop 或将在未来两年使用。...

2017-07-31

618

本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜是如何造成的在Spark中，同一个Stage的不同Partition可以并行处理，而具有依赖关系的不同Stage之间是串行处理的。假设某个Spark Job分为Stage 0和Stage 1两个Stage，且Stage 1依赖于Stage 0，那Stage 0完全处理结束之前不会处理Stage 1。而Stage 0可能包含N个Task，这N个Task可以并行进行。如果其中N-1个Task都在10秒内完成，而另外一个Task却耗时1分钟，那该S...

2017-07-31

565

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。