Spark入门到精通视频学习资料--第四章:基于Spark的流处理框架Spark Streaming(2讲)
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。 本文将详细介绍 Spark Streaming 实时计算框架的原理与特点、适用场景。 Spark Streaming 实时计算框架 Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。 Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。 Spark Streaming的优势在于: 能运行在100+的结点上,并达到秒级延迟。 使用基于内存的Spark作为执行引擎,具有高效和容错的特性。 能集成Spark的批处理和交互查询。 为实现复杂的算法提供和批处理类似的简...