基于MaxCompute的数仓数据质量管理
声明
本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。
参考文献
《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部 著。
背景及目的
数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。
数据质量保障原则
评估数据质量的好坏不同行业甚至不同企业有不同标准,在此我们主要从四个方面进行评估,即完整性、准确性、一致性和及时性。
完整性。
完整性是指数据的记录和信息是否完整,是否存在缺失情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,可以说,

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大数据开发你需要知道的十个技术
“当你不创造东西时,你只会根据自己的感觉而不是能力去看待问题。” – WhyTheLuckyStiff 汇总一些自己在大数据路上走过的弯路,愿大家不再掉坑… 1.分布式存储 传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能。 虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop 数据存储在SAN上。但这也造成了它自身性能与规模的瓶颈。现在,如果你把所有的数据都通过集中式SAN处理器进行处理,与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN,要么将所有的数据节点都集中到一个SAN。 但Hadoop是一个分布式应用,就应该运行在分布式存储上,这样存储就保留了与Hadoop本身同样的灵活性,不过它也要求拥抱一个软件定义存储方案,并在商用服务器上运行,这相比瓶颈化的Hadoop自然更为高效。 2.超融合VS分布式 注意,不要混淆超融合与分布式。某些超融合方案是分布式存储,但通常这个术语意味着你的应用和存储都保存在同一计算节点上。这是在试图解决...
- 下一篇
大数据学习路线,0基础小白怎么学习大数据?
一、大数据技术基础 1、linux操作基础 · linux系统简介与安装 · linux常用命令–文件操作 · linux常用命令–用户管理与权限 · linux常用命令–系统管理 · linux常用命令–免密登陆配置与网络管理 · linux上常用软件安装 · linux本地yum源配置及yum软件安装 · linux防火墙配置 · linux高级文本处理命令cut、sed、awk · linux定时任务crontab大数据学习扣qun74零零加【41三八yi】2、shell编程 · shell编程–基本语法 · shell编程–流程控制 · shell编程–函数 · shell编程–综合案例–自动化部署脚本 3、内存数据库redis · redis和nosql简介 · redis客户端连接 · redis的string类型数据结构操作及应用-对象缓存 · redis的list类型数据结构操作及应用案例-任务调度队列 · redis的hash及set数据结构操作及应用案例-购物车 · redis的sortedset数据结构操作及应用案例-排行榜 4、布式协调服务zookeeper ·...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装Docker,最新的服务器搭配容器使用
- 设置Eclipse缩进为4个空格,增强代码规范