《大数据管理概论》一1.4 大数据的处理模式
本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.4节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看
1.4 大数据的处理模式
无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce。这些系统将分布式编程简化为自动提供位置感知(locality-aware)调度、容错以及负载均衡,使得大量用户能够在商用集群上分析庞大的数据集。
大多数现有的集群计算系统都是基于非循环数据流模型(acyclic data f?low model),从稳定的物理存储(如分布式文件系统)中加载记录,一组确定性操作构成一个有向无环图(Directed Acyclic Graph,DAG),记录被传入这个DAG,然后写回稳定存储。通过这个DAG数据流图,运行时自动完成调度工作及故障恢复。
尽