门道多:一次MaxCompute PS任务的问题排查之旅
关于PS是什么,可以参考一下以下两个介绍:基于参数服务器的大规模在线学习算法和Parameter Server。更多问题可以咨询玄乐。下面主要总结一下这回遇到一个PS任务跑不起来的问题排查过程。不想看过程的直接看最后一点总结就行。
一 为什么要分享一个问题排查过程
作为初级用户来说只要会基于SDK的编程和命令使用就OK了,但对于广告这种重度高级用户来说,如果还把计算框架和MaxCompute当成黑盒来用,任务跑不起来了或者任务出错了就只能两眼一抹黑了,这次分享一来是By Case解了一个很复杂的问题,二来是摸清了里面的门道,简单是一环扣一环,觉得有必要分享一下,给有需要的同学可做下参考。
二 问题的现象
一个PS任务从提交到最后人工Kill经过了7小时,一直没起起来,而该任务以前是可以正常运行完成的。如下图所示,有