工作流调度器azkaban(以及各种工作流调度器比对)
1:工作流调度系统的作用: (1):一个完整的数据分析系统通常都是由大量任务单元组成:比如,shell脚本程序,java程序,mapreduce程序、hive脚本等;(2):各任务单元之间存在时间先后及前后依赖关系;(3):为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; (4):举例说明工作流调度系统的具体作用: 我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:a、通过Hadoop先将原始数据同步到HDFS上;b、借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;c、需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;d、将明细数据进行复杂的统计分析,得到结果报表信息;e、需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用。 (5):工作流调度实现方式: a:简单的任务调度:直接使用linux的crontab来定义;b:复杂的任务调度:开发调度平台,或使用现成的开源调度系统,比如ooize、azkaban等 (6):常见工作流...