流式计算
从spark 说起,谈谈“流式”计算的理解 spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念: 并行计算 Map Reduce 算子 RDD数据结构 并行计算 spark的任务分为1个driver、多个executor。程序启动driver,driver发送执行的程序(jar)到executor,executor在多台机器并行执行。driver和executor可以理解为进程,像httpd一样,完成某些任务,接受并发送数据的进程。 不同的spark任务都需要分配driver、executor。此时,还需要提供资源管理的应用,包括计算资源和内存资源的。 我们采用YARN作为spark资源管理系统,Mesos是另一个资源管理框架。 YARN Map Reduce 算子 大数据与并行计算的最大区别,我认为就在map reduce算子上。 并行计算更喜欢做“关门打狗”的应用,高度并行,线程之间不做交互,例如口令破译,造表等。 spark中,用transform 和 action代替map Reduce操作。transform...