大数据分布式计算系统 Spark 入门核心之 RDD
作者:幻好 来源:https://developer.hs.net/thread/2173 概述 Apache Spark 是一个快速且通用的集群计算系统。提供 Java、Scala、Python 和 R 中的高级 API,以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL、用于机器学习的 MLlib、用于图形处理的 GraphX 和 Spark Streaming。 本文主要介绍Spark入门知识,以及核心 RDD 相关概念。 Spark RDD RDD 基础概念 RDD 是什么 RDD(Resilient Distributed Dataset)名为弹性分布式数据集,是 Spark 中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。 具体释义: Resilient:弹性伸缩,RDD 里面的中的数据可以保存在内存中或者磁盘里面。 Distributed:元素是分布式存储的,可直接用于分布式计算。 Dataset:数据集合,可以存放很多元素。 RDD 是一个只读的数据集,其不实际存储真正要计算的数据,...