好程序员分享ApacheSpark常见的三大误解-低调大师

好程序员分享ApacheSpark常见的三大误解

2019-04-21 713

　　好程序员分享ApacheSpark常见的三大误解
误解一：Spark是一种内存技术

　　大家对Spark最大的误解就是其是一种内存技术（in-memorytechnology）。其实不是这样的！没有一个Spark开发者正式说明这个，这是对Spark计算过程的误解。

　　我们从头开始说明。什么样的技术才能称得上是内存技术？在我看来，就是允许你将数据持久化（persist）在RAM中并有效处理的技术。然而Spark并不具备将数据数据存储在RAM的选项，虽然我们都知道可以将数据存储在HDFS,Tachyon,HBase,Cassandra等系统中，但是不管是将数据存储在磁盘还是内存，都没有内置的持久化代码（nativepersistencecode）。它所能做的事就是缓存（cache）数据，而这个并不是数据持久化（persist）。已经缓存的数据可以很容易地被删除，并且在后期需要时重新计算。

　　但是即使有这些信息，仍然有些人还是会认为Spark就是一种基于内存的技术，因为Spark是在内存中处理数据的。这当然是对的，因为我们无法使用其他方式来处理数据。操作系统中的API都只能让你把数据从块设备加载到内存，然后计算完的结果再存储到块设备中。我们无法直接在HDD设备上计算；所以现代系统中的所有处理基本上都是在内存中进行的。

　　虽然Spark允许我们使用内存缓存以及LRU替换规则，但是你想想现在的RDBMS系统，比如Oracle和PostgreSQL，你认为它们是如何处理数据的？它们使用共享内存段（sharedmemorysegment）作为tablepages的存储池，所有的数据读取以及写入都是通过这个池的，这个存储池同样支持LRU替换规则；所有现代的数据库同样可以通过LRU策略来满足大多数需求。但是为什么我们并没有把Oracle和PostgreSQL称作是基于内存的解决方案呢？你再想想LinuxIO，你知道吗？所有的IO操作也是会用到LRU缓存技术的。

　　你现在还认为Spark在内存中处理所有的操作吗？你可能要失望了。比如Spark的核心：shuffle，其就是将数据写入到磁盘的。如果你再SparkSQL中使用到groupby语句，或者你将RDD转换成PairRDD并且在其之上进行一些聚合操作，这时候你强制让Spark根据key的哈希值将数据分发到所有的分区中。shuffle的处理包括两个阶段：map和reduce。Map操作仅仅根据key计算其哈希值，并将数据存放到本地文件系统的不同文件中，文件的个数通常是reduce端分区的个数；Reduce端会从Map端拉取数据，并将这些数据合并到新的分区中。所有如果你的RDD有M个分区，然后你将其转换成N个分区的PairRDD，那么在shuffle阶段将会创建M*N个文件！虽然目前有些优化策略可以减少创建文件的个数，但这仍然无法改变每次进行shuffle操作的时候你需要将数据先写入到磁盘的事实！

　　所以结论是：Spark并不是基于内存的技术！它其实是一种可以有效地使用内存LRU策略的技术。

　　误解二：Spark要比Hadoop快10x-100x

　　这个图片是分别使用Spark和Hadoop运行逻辑回归（LogisticRegression）机器学习算法的运行时间比较，从上图可以看出Spark的运行速度明显比Hadoop快上百倍！但是实际上是这样的吗？大多数机器学习算法的核心部分是什么？其实就是对同一份数据集进行相同的迭代计算，而这个地方正是Spark的LRU算法所骄傲的地方。当你多次扫描相同的数据集时，你只需要在首次访问时加载它到内存，后面的访问直接从内存中获取即可。这个功能非常的棒！但是很遗憾的是，官方在使用Hadoop运行逻辑回归的时候很大可能没有使用到HDFS的缓存功能，而是采用极端的情况。如果在Hadoop中运行逻辑回归的时候采用到HDFS缓存功能，其表现很可能只会比Spark差3x-4x，而不是上图所展示的一样。

　　根据经验，企业所做出的基准测试报告一般都是不可信的！一般独立的第三方基准测试报告是比较可信的，比如：TPC-H。他们的基准测试报告一般会覆盖绝大部分场景，以便真实地展示结果。

　　一般来说，Spark比MapReduce运行速度快的原因主要有以下几点：

　　task启动时间比较快，Spark是fork出线程；而MR是启动一个新的进程；

　　更快的shuffles，Spark只有在shuffle的时候才会将数据放在磁盘，而MR却不是。

　　更快的工作流：典型的MR工作流是由很多MR作业组成的，他们之间的数据交互需要把数据持久化到磁盘才可以；而Spark支持DAG以及pipelining，在没有遇到shuffle完全可以不把数据缓存到磁盘。

　　缓存：虽然目前HDFS也支持缓存，但是一般来说，Spark的缓存功能更加高效，特别是在SparkSQL中，我们可以将数据以列式的形式储存在内存中。

　　所有的这些原因才使得Spark相比Hadoop拥有更好的性能表现；在比较短的作业确实能快上100倍，但是在真实的生产环境下，一般只会快2.5x~3x！

　　误解三：Spark在数据处理方面引入了全新的技术

　　事实上，Spark并没有引入任何革命性的新技术！其擅长的LRU缓存策略和数据的pipelining处理其实在MPP数据库中早就存在！Spark做出重要的一步是使用开源的方式来实现它！并且企业可以免费地使用它。大部分企业势必会选择开源的Spark技术，而不是付费的MPP技术

微信关注我们

原文链接：https://yq.aliyun.com/articles/699332

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

新手学习大数据？这才是完整的大数据学习体系

整理的大数据学习思路第一阶段：linux系统本阶段为大数据学习入门基础课程，帮大家进入大数据领取打好Linux基础，以便更好的学习Hadoop、habse、NoSQL、saprk、storm等众多技术要点。另：目前企业中无疑例外是使用Linux来搭建或部署项目的第二阶段：大型网站高并发处理本阶段的学习是为了让大家能够了解大数据的源头，数据从而而来，继而更好的了解大数据。通过学习处理大型网站高并发问题反向的更加深入的学习Linux，同事站在了更高的角度去触探架构第三阶段：Hadoop学习 1、Hadoop分布式文件系统：HDFS 详细解剖HDFS，了解其工作原理，打好学习大数据的基础 2、Hadoop分布式计算框架：MapReduce MapReduce可以说是任何一家大数据公司都会用到的计算框架，也是每个大数据工程师应该熟练掌握的 3、Hadoop离线体系：Hive hive是使用SQL尽心计算的Hadoop框架，工作中经常会使用，也是面授的重点 4、Hadoop离线计算体系：HBASE HBASE的重要性不言而喻，即便是工作多年的大数据工程师也是需要去重点学习HBASE性...

2019-04-21

575

1 简介 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的[SQL]查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive

2019-04-21

679

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。