dataworks分钟级别数据增量同步方案
一、目的
本文实现的是,十分钟调度的mysql数据增量同步到maxcompute最新分区中。
二、配置
- 创建rds表,建表语句如下
create table if not exists mysql_test( id INT, addtime DATETIME );
2.创建maxcompute表,建表语句如下
id bigint, addtime datetime ) partitioned by (intime string);
3.配置同步任务,截图如下
其中数据过滤参数配置为
date_format(addtime,'%Y-%m-%d %H:%i:%s') <= '${key1} ${key3}'
分区信息为
含义是将最近十分钟的数据过滤出来,同步到maxcompute表的最新分区中(每十分钟创建一个分区)。
4.同步任务调度配置(主要是参数配置和时间间隔,以及生成实例方式),截图如下
其中参数为
key1=$[yyyy-mm-dd] key2=$[hh24:mi:ss-10/24/60] key3=$[hh24:mi:ss]
key1:当前的日期,格式是yyyy-mm-dd
key2:十分钟前的时间,格式是hh24:mi:ss
key3:当前时间,格式是hh24:mi:ss
参数说明参考
时间间隔配置为10分钟
生成实例方式为发布后及时生成
5.保存同步任务、提交
三、验证
1.确定十分钟的周期实例已经生成,可以在运维中心查看
2.向mysql的表mysql_test插入两条数据,具体sql如下
Insert into mysql_test values(2,date_add(now(), interval 10 MINUTE_SECOND));
数据如下
(上面两条数据是之前插入的,忽略就好)
3.之前插入数据的addtime分别是2019-12-25 23:39:28和2019-12-25 23:39:38,这两条数据会插入到intime=2019-12-25 23:40:00的分区中,等待10分钟后查看结果,~~~10分钟过去了,截图如下,可以使用如下语句验证
4.大功告成!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
2019年常见ElasticSearch面试题解析(上)
前言 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr,也是基于Lucene。 Elasticsearch 面试题 1、elasticsearch 了解多少,说说你们公司 es 的集群架构,索引数据大小,分片有多少,以及一些调优手段 。2、elasticsearch 的倒排索引是什么3、elasticsearch 索引数据多了怎么办,如何调优,部署4、elasticsearch 是如何实现 master 选举的5、详细描述一下 Elasticsearc...
- 下一篇
实践Hadoop MapReduce 任务的性能翻倍之路
作者:李万雪, eBay软件开发工程师,2017年毕业于上海交通大学。目前负责日志在大数据平台上的分析和opentracing在ebay日志平台的实现。 原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MDMyNDUzOQ==&mid=2650505625&idx=1&sn=374ae0fdf7b02cf3dfdd9180580204cb&chksm 摘要 eBay的CAL(Central Application Logging)系统负责收集eBay各种应用程序的日志数据,并且通过Hadoop MapReduce job生成日志报告,应用程序开发人员与运维人员通过报告可获得以下内容: API调用响应时间的百分位值 服务调用关系 数据库操作 eBay每天产生PB量级的CAL日志,
相关文章
文章评论
共有0条评论来说两句吧...