MaxCompute 表(Table)设计规范
- 表的限制项
表(Table)设计规范 表设计主要目标
- 表设计的影响
- 表设计步骤
表数据存储规范
- 按数据分层规范数据生命周期
- 按数据的变更和历史规范数据的保存
- 数据导入通道与表设计
- 分区设计与逻辑存储的对应
- 表和分区设计基本规则
分区设计
- 分区字段和普通字段的选择
- 分区字段定义依据
- 分区个数定义依据
- 分区数量和数据量建议
表的限制项
表(Table)设计规范 表设计主要目标
- 降低存储成本。 合适的表设计可以在数据分层设计上降低冗余存储,减少中间表数据量大小。同时正 确的对表数据进行生命周期管理,更能够直接降低存储的数据量以降低存储成本。
- 降低计算成本。 对表设计规范化,以便在后续对表数据进行查询计算过程中,可以依据这些规范优化 数据的读取,减少计算过程中的冗余读写和计算,提升计算性能的同时降低成本。
- 降低维护复杂度。 规范化的表分层设计能够直接体现业务的特点。如通过对数
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Hive分桶表学习总结
版权声明:本文由董可伦首发于https://dongkelun.com,非商业转载请注明作者及原创出处。商业转载请联系作者本人。 https://blog.csdn.net/dkl12/article/details/84964628 前言 学习总结一下Hive的分桶表。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 优点:1、提高join查询效率 2、提高抽样效率 1、建表 通过 clustered by(字段名) into bucket_num buckets 分桶,意思是根据字段名分成bucket_num个桶 create table test_bucket ( id int comment 'ID', name string comment '名字' ) comment '测试分桶' clustered by(id) into 4 buckets ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ; 2、插入数据 2.1 数据 buckt_data.txt 1,nam...
- 下一篇
# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】
内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括: Spark、RDD简介 RDD API简介 打包与spark-submit 性能分析与调优基础 主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.13(本周四)19:00 - 20:00 ppt链接:https://yq.aliyun.com/download/3142视频链接:https://yq.aliyun.com/live/720 加入Apache Spark中国技术交流钉钉群与大牛交流经验 欢迎大家扫码加入~~
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题