《Spark与Hadoop大数据分析》一一3.2　学习Spark的核心概念-低调大师

《Spark与Hadoop大数据分析》一一3.2　学习Spark的核心概念

2017-07-02 594

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.2节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2　学习Spark的核心概念

在本节，我们要了解 Spark 的核心概念。Spark 提供的主要抽象是弹性分布式数据集（Resilient Distributed Dataset，RDD）。因此，我们要了解 RDD 是什么，以及提供内存级性能和容错的 RDD 中包含的运算。但是，首先我们要学习使用 Spark 的方法。
3.2.1　使用 Spark 的方法
使用 Spark 有两种方法，即 Spark Shell 和 Spark 应用程序。

Spark Shell
这是可以利用 Scala、Python 或 R 进行数据探索的交互式命令行（re

微信关注我们

原文链接：https://yq.aliyun.com/articles/117460

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Apache Beam欲通过uber api获取大数据

现在，有用的Apache大数据项目似乎每日更新。相比于每次都重新学习的方式，如果可以通过一个统一的API如何呢? 长期开玩笑说Hadoop生态系统是那种如果你不喜欢一个为特定系统的API，等待五分钟，两个新的Apache项目将出现随之而来崭新的API可供学习。有很多要赶着学习。更糟糕的是，它会导致很多工作迁移到不同的项目仅仅为了保持通用性。“我们已经在暴风雨中实现了流媒体解决方案!现在我们已经快速地重做了!我们目前正在重写pache Flink(或Apex)的核心…我们已经忘记了起初我们试图解决的业务用例。输入Apache Beam，一个试图统一数据处理框架有核心API的新项目，允许简单的执行引擎之间的移植。现在,我知道你正在思考抛出另一个API。但Beam有很强的继承性。它来自谷歌并且其研究成果在Millwheel FlumeJava论文上，在多年的运营经验后其出版。它定义了一个有些熟悉的有向无环图数据处理引擎，可以处理无序传递成为常态的情况下的无限数据流，毫无例外。但是稍等,我听到了你在叫喊。这不是谷歌云数据流吗?是的!也不是。谷歌云数据流是一个完全托管服务,你使用数据流S...

2017-07-02

597

前言目前对信息高时效性、可操作性的需求不断增长，这要求软件系统在更少的时间内能处理更多的数据。随着可连接设备数量不断增加，以及在众多行业领域广泛应用，这种信息需求已无处不在。传统企业的运营系统被迫处理原先只有互联网企业才会遇到的大规模数据。这种重大转变正不断瓦解传统架构和解决方案，传统上会将在线事务处理和离线分析分割开来。与此同时，人们正在重新勾勒从数据中提取信息的意义和价值。软件框架和基础设施也在不断进化，以适应这种新场景。具体地说，数据的生成可以看作一连串发生的离散事件，这些事件流会伴随着不同的数据流、操作和分析，都会由一个通用的软件框架和基础设施来处理。Storm正是最流行的实时流计算框架之一，它提供了可容错分布式计算所要求的基本原语和保障机制，可以满足大容量关键业务应用的需求。它不但是一套技术的整合，也是一种数据流和控

2017-07-02

683

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。