使用Airflow来调度Data Lake Analytics的任务
今天我们来介绍一下使用Airflow来调度 Data Lake Analytics(后面简称DLA)的任务执行。DLA作为一个数据湖的解决方案,
客户有每天周期性的调度一些任务从DLA查询数据回流到业务系统的需求。因为DLA兼容
MySQL的协议,因此所有支持MySQL的协议的调度框架都天然支持DLA,今天就来介绍一下使用业界著名的
Apache Airflow 来调度DLA的作业。
大致步骤如下:
- 购买一个ECS用来运行Airflow
- 安装Airflow
- 添加DLA的DB Connection
- 开发任务脚本
购买ECS并进行配置
购买ECS的详细流程这里就不一一罗列了,非常的简单,按照官方的购买流程可以分分钟完成,需要注意的几点这里说一下:
- 购买的ECS的Region要和你的数据所在Region(其实也就是你开通DLA的 Region 保持一致)。
- 购