地铁译:Spark for python developers ---Spark流式数据处理
先研究一下不断改变的动态环境带来的挑战,在列出流处理应用的先决条件(如,Twitter的TCP Sockets连接)之后, 结合Spark, Kafka 和 Flume 把数据放入一个低延迟,高吞吐量,可缩放的处理流水线。 要点如下: • 分析流式应用架构的挑战,约束和需求 • 利用Spark Streaming 从 TCP socket 中处理实时数据 • 连接 Twitter 服务,准实时解析 tweets • 使用 Spark, Kafka, 和 Flume 建立一个可靠,容错,可缩放,高吞吐量,低延迟的集成应用 • 以 Lambda 和 Kappa 的架构范式结尾 Spark Streaming在数据密集型应用中的位置 按照惯例, 先看一下最初的数据密集型应用架构,指明我们所感兴趣的 Spark Streaming 模块的所处位置. 下图着重指明了整体架构中的Spark Streaming模块,Spark SQL和 Spark MLlib: 数据流可以来自股票市场的时序分析,企业交易,各种交互,事件,web流量,点击流,和传感器数据等,都是及时...