大数据时代的数据治理
其实一直想写这个主题,只是最近事有点多。按照向下兼容的特性来说,大数据治理和数据治理应该是没有差别的。但从本质而言,传统数据库的模式是Schema on Write,即在写入数据前先要定义Schema,包括了数据库的表、视图、存储过程、索引等,每个数据库条目都有自己的血缘关系(Lineage),基于角色或栏的访问控制,变更日志等等,这些内容在跨系统数据传输或转置时必须定义明确,因为在数据流的每个入库阶段都可能改变原始数据。 尤其数据的血缘关系梳理是非常困难的事情。举个例子来说,最初的数据录入是在MySQL库中,进入数仓(比如Oracle)就会有数据结构的变化;数仓中还会有内置的SQL描述规范,数据需要转置;接下来进入BI工具(比如MicroStrategy)又会对数据造成改变;最后一些可视化工具(比如Tableau)又会对数据进行分类汇总。因此在传统数据治理中,通常需要有数据核验官或QA记录下在每一个数据流的落地环节,原始数据做了哪些变化与调整,并且在原始数据结构(Schema)发生变化的时候,更新其后的每一个环节的描述文档。 而大数据治理是Schema on Read的模式,即在采集...

