Tablestore结合Blink公共云使用手册
前言
本文将介绍在Blink实时计算平台建立以Tablestore作为流计算的源表以及结果表作业的流程。
表格存储通道服务
表格存储通道服务是基于表格存储(Tablestore)数据接口之上的全增量一体化服务,它通过一组Tunnel Service API和SDK为用户提供了增量、全量和增量加全量三种类型的分布式数据实时消费通道。通过为数据表建立Tunnel Service数据通道,用户可以通过流式计算的方式对表中历史存量和新增的数据进行消费处理。
流计算能将Tunnel Service数据通道作为流式数据的输入,每条数据类似一个JSON格式,如下所示:
{ "OtsRecordType": "PUT", // 数据操作类型,包括PUT、UPDATE、DELETE "OtsRecordTimestamp": 1506416585740836, //数据写入时间(微秒),全量数据时为0 "PrimaryKey": [ { "ColumnName": "pk_1", //第一主键列 "Value": 1506416585881590900 }, { "ColumnName": "pk_2", //第二主键列 "Value": "string_pk_value" } ], "Columns": [ { "OtsColumnType": "Put", // 列操作类型,包括PUT、DELETE_ONE_VERSION、DELETE_ALL_VERSION "ColumnName": "attr_0", "Value": "hello_table_store", }, { "OtsColumnType": "DELETE_ONE_VERSION", // DELETE操作没有Value字段 "ColumnName": "attr_1" } ] }
其中,数据的各个主键和属性列值均可以在BLINK DDL以列名以及相应的类型映射读取,例如上述实例,我们需要定义的DDL如下所示:
create table tablestore_stream( pk_1 BIGINT, pk_2 VARCHAR, attr_0 VARCHAR, attr_1 DOUBLE, primary key(pk_1, pk_2) ) with ( type ='ots', endPoint ='http://blink-demo.cn-hangzhou.vpc.tablestore.aliyuncs.com', instanceName = "blink-demo", tableName ='demo_table', tunnelName = 'blink-demo-stream', accessId ='xxxxxxxxxxx', accessKey ='xxxxxxxxxxxxxxxxxxxxxxxxxxxx', ignoreDelete = 'false' //是否忽略delete操作的数据 );
如果字段名称有前缀,需要使用反撇,例:OTS字段名称为TEST.test,BLINK DDL定义为TEST.test
。而OtsRecordType、OtsRecordTimestamp字段以及每个Column的OtsColumnType字段都会支持通过属性字段的方式读取:
字段名 | 说明 |
---|---|
OtsRecordType | 数据操作类型 |
OtsRecordTimestamp | 数据操作时间(全量数据时为0) |
列名_OtsColumnType | 以具体列名和_"_____OtsColumnType__"_拼接,某列的操作类型 |
需要OtsRecordType和某些Column的OtsColumnType字段时,Blink提供了 HEADER
关键字用于获取源表中的属性字段,具体DDL:
create table tablestore_stream( OtsRecordType VARCHAR HEADER, OtsRecordTimestamp BIGINT HEADER, pk_1 BIGINT, pk_2 VARCHAR, attr_0 VARCHAR, attr_1 DOUBLE, attr_1_OtsColumnType VARCHAR HEADER, primary key(pk_1, pk_2) ) with ( ... );
WITH参数
参数 | 注释说明 | 备注 |
---|---|---|
endPoint | 表格存储的实例访问地址 | endPoint |
instanceName | 表格存储的实例名称 | instanceName |
tableName | 表格存储的数据表名 | tableName |
tunnelName | 表格存储数据表的数据通道名 | tunnelName |
accessId | 表格存储读取的accessKey | accessId |
accessKey | 表格存储读取的秘钥 | |
ignoreDelete | 是否忽略DELETE操作类型的实时数据 | 可选,默认为false |
SQL示例
数据同步,ots sink会以update的方式写入结果表:
create table otsSource ( pkstr VARCHAR, pklong BIGINT, col0 VARCHAR, primary key(pkstr, pklong) ) WITH ( type ='ots', endPoint ='http://blink-demo.cn-hangzhou.ots.aliyuncs.com', instanceName = "blink-demo", tableName ='demo_table', tunnelName = 'blink-demo-stream', accessId ='xxxxxxxxxxx', accessKey ='xxxxxxxxxxxxxxxxxxxxxxxxxxxx', ignoreDelete = 'true' ); CREATE TABLE otsSink ( pkstr VARCHAR, pklong BIGINT, col0 VARCHAR, primary key(pkstr, pklong) ) WITH ( type='ots', instanceName='blink-target', tableName='demo_table', accessId ='xxxxxxxxxxx', accessKey ='xxxxxxxxxxxxxxxxxxxxxxxxxxxx', endPoint='https://blink-target.cn-hangzhou.ots.aliyuncs.com', valueColumns='col0' ); INSERT INTO otsSink SELECT t.pkstr, t.pklong, t.col0 FROM otsSource AS t
流计算作业建立流程
在Blink实时计算平台数据开发模块建立新任务,并填写节点类型、Blink版本、节点名称以及目标文件夹等相关内容,如下图所示:
新建任务之后,进入该任务,点击切换为SQL模式按钮。按照之前介绍的DDL定义开发自己的任务。如下图所示:
作业完成之后,点击发布,选择运行环境及配置可用CU,此次建立的流式作业就正式启动了,可通过运维界面管理作业以及查看作业运行相关信息。如下图所示:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
DataSphere Studio 0.60 版本发布
什么是DataSphere Studio? DataSphere Studio(简称DSS)是微众银行自研的一站式数据应用开发管理门户,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出等数据应用开发全流程场景需求。 DataSphere Studio 0.6.0发布,优化一键部署以及Azkaban从必装插件优化为选装插件。 一键部署:安装目录与软件目录分离、简化Visualis的配置,以及优化DSS安装启动的服务状态判断方式; Azkaban插件优化:DSS 0.5.0的Azkaban和DSS的Azkaban插件必装,否则创建工程会报错,DSS 0.6.0允许Azkaban和DSS的Azkaban插件选装。 特性增强 [DSS-4] Azkaban AppJoint插件从必装优化为选装。 [DSS-5] 优化从DSS端登录Azkaban失败后的错误信息。 [DSS-7] 如果Azkaban的提交用户为空,将提交用户修改为代理用户。 [DSS-13] 一键部署优化。 Bug修复 [DSS-10] Qualitis AppJoint canExecute判断方...
- 下一篇
聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的
聚水潭数据仓库业务介绍 上海聚水潭网络科技有限公司成立于2014年。聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台,为全国33万多家电商企业提供全面的信息化解决方案。来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加,聚水潭系统依然保持平稳、安全和顺畅地运行。2019年11月11日,聚水潭系统处理订单总量达 2.5亿单,成交额超400亿元。基于阿里云的ECS和数据库产品,聚水潭构建了一整套具有竞争力的电商SaaS平台,为商家提供订单管理、仓储管理、分销管理和协同供应链等功能。并且基于财务和经营数据,为商家提供快速经营报表、分析、测算工具系统。阿里云数据库为其提供了多元化的数据库服务。其中AnalyticDB for PostgreSQL(简称 ADB PG)分析型数据库支撑了核心数据仓库的ETL作业、CRM...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS关闭SELinux安全模块
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- MySQL8.0.19开启GTID主从同步CentOS8
- Hadoop3单机部署,实现最简伪集群
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,CentOS8安装Elasticsearch6.8.6