Spark Streaming 的玫瑰与刺
前言 说人话:其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲,坑则是从实际场景中遇到的一些小细节描述。 玫瑰篇 玫瑰篇主要是说Spark Streaming的优势点。 玫瑰之代码复用 这主要得益于Spark的设计,以及平台的全面性。你写的流处理的代码可以很方便的适用于Spark平台上的批处理,交互式处理。因为他们本身都是基于RDD模型的,并且Spark Streaming的设计者也做了比较好的封装和兼容。所以我说RDD是个很强大的框,能把各种场景都给框住,这就是高度抽象和思考后的结果。 玫瑰之机器学习 如果你使用Spark MLlib 做模型训练。恭喜你,首先是很多算法已经支持Spark Streaming,譬如k-means 就支持流式数据更新模型。 其次,你也可以在Spark Streaming中直接将离线计算好的模型load进来,然后对新进来的数据做实时的Predict操作。 玫瑰之SQL支持 Spark Streaming 里天然就可以使用 sql/dataframe/datasets 等。而且时间窗口的使用可以极大扩展这种使用场景,譬如各种系统...