spark 数据倾斜的一些表现
我遇到的问题其实是自己的业务代码的bug导致shuffle时发生了倾斜,groupby操作时大量的key映射到了同一台机器。 我自己的bug没有多少参考价值,因为是一个弱智bug,但是由于之前没有这方面的经验,看了日志也不懂发生了什么,在群里请教了木艮同学和Jepson同学, 终于找到了问题。稍微写一下发生数据倾斜时的一些日志和监控图表吧,权当参考。 问题现象 任务日志显示某节点内存超过yarn的限制:xx G,被yarn杀掉。 打开webui(:4040/jobs),打开executor列表,会显示只有一个worker在工作,  对应的报错节点的日志: 16/10/31 11:10:18 INFO storage.MemoryStore: Block broadcast_14 stored as values in memory (estimated size 337.4 KB, free...