Spark点燃近实时大数据之火-低调大师

Spark点燃近实时大数据之火

2017-07-31 653

在用户体验达不到所宣传效果之后，IT领域中必然会随之出现“新的热门事件”。目前的新热门事件涉及大数据和对海量分布式数据的快速精准分析。

在目前的大数据领域中，Hadoop被作为存储和分配海量数据的软件，而MapReduce则被作为处理这些海量数据的引擎。两者整合在一起可以批处理一些对时效性没有过高要求的数据。

那么对于近实时大数据分析应当怎么办呢?作为最先进的下一代开源技术Apache Spark已经为视频、传感器、交易等流数据的分析、机器学习、预测建模创造了条件。它们可以用于基因组研究、封包检测、恶意软件探测和物联网。

Spark不仅可像MapReduce那样用于批处理，对于需要与数据集进行大量交互的算法，Spark还可以将这些运算的中间结果存储在缓存中。相比之下，在带入系统进行下一步处理前，MapReduce必须要将每步运算的结果写入磁盘。这种在内存中对弹性分布式数据集(RDD)的快速处理可以说是Apache Spark的核心能力。

Salient Federal Solutions公司一直致力于使用Spark为政府机构开发分析产品。该公司预测分析主任Dave Vennergrund称：“一旦执行对数据集的操作，它们能够进行相互连接，从而使得转换能够被迅速完成。加之它们能够同时跨多台机器做这一工作，这使得我们能够迅速做出反应。”

Spark的支持者认为，与竞争对手相比，Spark在扩展性和速度方面都具有优势。突出表现为在小数据集升级为拍字节后，它们仍然能够出色地工作。在2014年11月份的基准竞赛中，Apache Spark整理100太字节数据的速度比Hadoop MapReduce快了三倍，并且其机器集群的规模是MapReduce的十分之一。

据软件开发公司Typesafe近期观察显示，对Spark感兴趣的机构在数量上正在不断增长。数据显示，目前13%的受访者正在使用Spark，约30%的受访者正在对Spark进行评估，20%的受访者计划在今年某一时候开始使用Spark。另有6%的受访者希望在2016年或更晚时候使用 Spark。此外，28%的受访者还对Spark不了解，认为它们还不成熟。

Salient 的数据分析中心副总裁Cindy Walker称：“对于政府来说，他们正在进行测试与评估。早期部署者都是那些有沙盒和研发预算的部门。我们的许多客户现在对大数据部署、内存分析、流解决方案都还没有划定能力底线。因此，我们目前正在使用Spark帮助他们设定合理的目标。”

虽然Spark还无法取代MapReduce，但是它们最终将成为大数据分析领域的一部分，推动数据被以更快的速度处理。

Apache Spark生态环境有以下几个组成部分：

Spark Core：平台的底层执行引擎，支持大量应用以及Java、Scala和Python等应用程序接口(API)。

Spark SQL(结构化查询语言) ：用户可通过其探究数据。

Spark Streaming：可对来自推特的流数据进行分析，并且让Spark具备批处理能力。

机器学习库 (MLlib)：一种分布式机器学习架构，交付高质量算法的速度比MapReduce快100倍。

Graph X：帮助用户以图形的形式表现文本和列表数据，找出数据中的不同关系。

SparkR：针对R统计语言的程序包。R用户可通过其在R壳中使用Spark功能。

BlinkDB：大型并行引擎。允许用户对海量数据执行类SQL查询，在速度重要性高于精确性的情况下非常有用。

本文作者：佚名

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/200882

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark与Hadoop两大技术趋势解

开源数据集如今深受开发者喜爱，比如谷歌的Images dataset数据集，YouTube-8M数据集等。通过对数据集里的数据进行分析，可以发现许多隐藏信息，比如客户喜好、未知相关性，市场趋势以及其他有用的商业信息。大数据分析对企业降低成本，准确掌握市场趋势，更快完成产品迭代十分有用。说到大数据分析，16年基本被Spark与Hadoop霸屏，到底是什么样的魔力让它们足以引起大数据世界的波动，未来又会如何发展呢? Apache Spark Apache Spark起源于加州大学伯克利分校，对于复杂分析来说是一个十分不错的开源处理引擎。Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。每一个Spark应用程序，都由一个驱动程序组成，运行用户的main函数，并且在一个集群上执行各种并行操作。 Spark提供的主要的抽象概念是具备容错能力的弹性分布式数据集，一个覆盖整个集群的只读多重数据项集。弹性分布式数据集(RDD)帮助实现交互式算法，通过多次访问数据集，实现交互式数据分析，应用延迟可以有不同程度...

2017-07-31

592

前言前面总结的几篇spark踩坑博文中，我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多机器集群部署的，分为Driver/Master/Worker，Master负责资源调度，Worker是不同的运算节点，由Master统一调度。而Driver是我们提交Spark程序的节点，并且所有的reduce类型的操作都会汇总到Driver节点进行整合。节点之间会将map/reduce等操作函数传递一个独立副本到每一个节点，这些变量也会复制到每台机器上，而节点之间的运算是相互独立的，变量的更新并不会传递回Driver程序。那么有个问题，如果我们想在节点之间共享一份变量，比如一份公共的配置项，该怎么办呢?Spark为我们提供了两种特定的共享变量，来完成节点间变量的共享。本文首先简单的介绍spark以及spark streaming中累加器和广播变量的使用方式，然后重点介绍一下如何更新广播变量。累加器顾名思义，累加器是一种只能通过关联操作进行“加”操作的变量，因此它能够高效的应用于并行操作中。它们能够用来实现counters和sums。Spark原生支持数值类...

2017-07-31

557

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。