分布式Snapshot和Flink Checkpointing简介
阿里巴巴实时计算部-昆仑 最近在学习Flink的Fault Tolerance,了解到Flink在Chandy Lamport Algorithm的基础上扩展实现了一套分布式Checkpointing机制,这个机制在论文"Lightweight Asynchronous Snapshots for Distributed Dataflows"中进行了详尽的描述。怀着对Lamport大神的敬仰,我分别下载研读了两篇论文,在这里把一些阅读的收获记录下来,希望能对学习Flink/Blink的同学能有些帮助。 Chandy Lamport Algorithm 我们先来看看Chandy Lamport Algorithm,“Distributed Snapshots: Determining Global States of a Distribu