概念介绍

2018-11-13 660

什么是工作流

工作流是大数据数仓体系必备的功能。主要用来进行任务调度，包括定时调度和依赖调度两个功能。为了解决Blink批处理功能在公共云的调度问题，Blink内部集成了开源的Airflow，并将其与Blink的开发平台进行集成，为用户提供一个一站式的批/流/工作流开发运维平台。

Blink工作流架构

为了更好的与用户已有的阿里云系统进行打通，工作流会部署在用户指定的VPC中。基本架构如下：

架构特点：

工作流部署在用户指定的VPC中，可与用户VPC内的其他云服务互联
工作流不仅能调度Blink作业，也可以通过shell/python调度用户已有的Hadoop作业。
用户独享调度资源，没有安全问题。

目前工作流功能仅在独享集群开放，用户可申请独享集群试用，并注明试用工作流即可

本文转自实时计算——概念介绍

微信关注我们

原文链接：https://yq.aliyun.com/articles/669134

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

创建ORC结果表

本页目录创建ORC结果表 DDL定义 WITH参数创建ORC结果表 ORC(Optimized Row Columnar)是Hadoop生态圈中的一种列式存储格式。ORC产生于2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个单纯的列式存储格式，仍然是先根据行组分割整个表，在每一个行组内进行按列存储。ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩，以降低存储空间的消耗。目前ORC也被Spark SQL、Presto等查询引擎支持。但是Impala对于ORC目前没有支持，仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。 DDL定义 Flink支持使用ORC格式文件作为输出，示例代码如下。 create table orc_source( id int, user_name VARCHAR, content VARCHAR, primary key(id) ) with (...

2018-11-13

684

本页目录 WITH参数 kafka版本对应关系 Kafka消息解析自建kafka WITH参数 Kafka源表的实现来源于自社区的kafka版本实现。注意：本文档只适合独享模式下使用。 Kafka需要定义的DDL如下。 create table kafka_stream( messageKey VARBINARY, `message` VARBINARY, topic varchar, `partition` int, `offset` bigint ) with ( type ='kafka010', topic = 'xxx', `group.id` = 'xxx', bootstrap.servers = 'ip:端口,ip:端口,ip:端口' ); 注意：以上表中的五个字段顺序务必保持一致。 WITH参数通用配置参数注释说明备注 type Kafka对应版本推荐使用KAFKA010 topic 读取的单个topic topic名称必选配置（1）kafka08必选配置: 参数注释说明备注 group.id 无消费组id zookeeper.connect ...

2018-11-13

815

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

概念介绍

什么是工作流

Blink工作流架构

创建ORC结果表

创建消息队列（Kafka）源表

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Spring

WebStorm

欢迎您来访！