《Storm分布式实时计算模式》——1.5 理解数据流分组
本节书摘来自华章计算机《Storm分布式实时计算模式》一书中的第1章,第1.5节,作者:(美)P. Taylor Goetz Brian O’Neill 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.5 理解数据流分组
看了前面的例子,你会纳闷为什么没有增加ReportBolt的并发度。答案是,这样做没有任何意义。为了理解其中的原因,需要了解Storm中数据流分组的概念。
数据流分组定义了一个数据流中的tuple如何分发给topology中不同bolt的task。举例说明,在并发版本的单词计数topology中,SplitSentenceBolt类指派了四个task。数据流分组决定了指定的一个tuple会分发到哪个task上。
Storm定义了七种内置数据流分组的方式:
- Shuffle grouping(随机分组):这种方式会