如何利用MaxCompute Hash Clustering让数据增量更新节省资源,耗时减半
对于增量更新的场景,可以利用 MaxCompute2.0的新特性,对语句做简单改造,从而大幅提升性能,节约集群资源。
背景
在数据开发的过程中,往往会进行分层的设计,在ODS层中,一种非常常见的场景是使用一个增量表delta对一个存量表snapshot进行更新。例如snapshot表存储所有的会员信息,而增量表中包括新增会员信息和原有会员信息属性的一些修改;或者snapshot表存储最近一个月的订单信息,delta表存储了新增订单以及物流的更新等等。
对于这种任务,往往有以下几个特征
- snapshot表存储量巨大,delta表相对较小
- snapshot表和delta表拥有一致的schema
- snapshot和delta表中存在主键key,且key可能有重合(否则可以通过简单的union all来完成)
- 上一个周期的snapshot + 当前周期
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HBase技术资料下载(持续更新)
标题 下载地址 HBase在车联网中的实践与应用 下载 HBase在爱奇艺的应用实践 下载 HBase2.0重新定义小对象实时存取 下载 HBase基本知识介绍及典型案例分析 下载 HBase Coprocessor 下载 在多租户环境中提高HBase可用性 下载 Quanta:Quora的HBase分层计数系统 下载 HBase中的事务 下载 HBase 高可用HA 下载 HBase In-Memory Compaction 下载 gohbase :HBase go客户端 下载 使用Apache Beam和HBase进行高效数据处理 下载 Democratizing HBase 下载 Apache Spark – Apache HBase Connector 下载 HBase在滴滴的实践 下载 HBase 多租户 下载 HBase 和 Phoenix 的使用 下载 时序及分析在hbase上的使用 下载
- 下一篇
HBase多模式
本期分享专家:明惠 (网名:过往记忆) -阿里云数据架构师 本期分享主题:HBase多模式: 视频地址:https://yunqivedio.alicdn.com/od/s5xhh1542269262038.mp4 PPT地址:https://yq.aliyun.com/download/3033 PS:欢迎关注HBase+Spark团队号 https://yq.aliyun.com/teams/382 博客,问答,直播,各类HBase资料,线下meetup都会发布到这里。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Redis,开启缓存,提高访问速度
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作