概念介绍
什么是工作流
工作流是大数据数仓体系必备的功能。主要用来进行任务调度,包括定时调度和依赖调度两个功能。为了解决Blink批处理功能在公共云的调度问题,Blink内部集成了开源的Airflow,并将其与Blink的开发平台进行集成,为用户提供一个一站式的批/流/工作流开发运维平台。
Blink工作流架构
为了更好的与用户已有的阿里云系统进行打通,工作流会部署在用户指定的VPC中。基本架构如下:
架构特点:
- 工作流部署在用户指定的VPC中,可与用户VPC内的其他云服务互联
- 工作流不仅能调度Blink作业,也可以通过shell/python调度用户已有的Hadoop作业。
- 用户独享调度资源,没有安全问题。
目前工作流功能仅在独享集群开放,用户可申请独享集群试用,并注明试用工作流即可
本文转自实时计算——概念介绍
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
创建ORC结果表
本页目录 创建ORC结果表 DDL定义 WITH参数 创建ORC结果表 ORC(Optimized Row Columnar)是Hadoop生态圈中的一种列式存储格式。ORC产生于2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩,以降低存储空间的消耗。目前ORC也被Spark SQL、Presto等查询引擎支持。但是Impala对于ORC目前没有支持,仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。 DDL定义 Flink支持使用ORC格式文件作为输出,示例代码如下。 create table orc_source( id int, user_name VARCHAR, content VARCHAR, primary key(id) ) with (...
- 下一篇
创建消息队列(Kafka)源表
本页目录 WITH参数 kafka版本对应关系 Kafka消息解析 自建kafka WITH参数 Kafka源表的实现来源于自社区的kafka版本实现。 注意:本文档只适合独享模式下使用。 Kafka需要定义的DDL如下。 create table kafka_stream( messageKey VARBINARY, `message` VARBINARY, topic varchar, `partition` int, `offset` bigint ) with ( type ='kafka010', topic = 'xxx', `group.id` = 'xxx', bootstrap.servers = 'ip:端口,ip:端口,ip:端口' ); 注意:以上表中的五个字段顺序务必保持一致。 WITH参数 通用配置 参数 注释说明 备注 type Kafka对应版本 推荐使用KAFKA010 topic 读取的单个topic topic名称 必选配置 (1)kafka08必选配置: 参数 注释说明 备注 group.id 无 消费组id zookeeper.connect ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主