大数据时代的数据治理
其实一直想写这个主题,只是最近事有点多。按照向下兼容的特性来说,大数据治理和数据治理应该是没有差别的。但从本质而言,传统数据库的模式是Schema on Write,即在写入数据前先要定义Schema,包括了数据库的表、视图、存储过程、索引等,每个数据库条目都有自己的血缘关系(Lineage),基于角色或栏的访问控制,变更日志等等,这些内容在跨系统数据传输或转置时必须定义明确,因为在数据流的每个入库阶段都可能改变原始数据。
尤其数据的血缘关系梳理是非常困难的事情。举个例子来说,最初的数据录入是在MySQL库中,进入数仓(比如Oracle)就会有数据结构的变化;数仓中还会有内置的SQL描述规范,数据需要转置;接下来进入BI工具(比如MicroStrategy)又会对数据造成改变;最后一些可视化工具(比如Tableau)又会对数据进行分类汇总。因此在传统数据治理中,通常需要有数据核验官或QA记录下在每一个数据流的落地环节,原始数据做了哪些变化与调整,并且在原始数据结构(Schema)发生变化的时候,更新其后的每一个环节的描述文档。
而大数据治理是Schema on Read的模式,即在采集各类数据时不需要定义各种数据库对象,我们甚至不知道哪些数据是今后用得上的。毕竟数据就是企业的资产,现在不做统计不代表它没有价值,只是在当前阶段不需要定义Schema而已。
由于整个采集存储过程没有涉及到任何转置,原始数据没有因为需要结构化或匹配差异系统而遭到破坏,数据的血缘关系是非常清楚的,因此在大数据治理中不需要考虑数据流的各个环节。
通常我们理解的大数据(非结构化)主要来自以下终端:
- 移动设备:包括平板与智能手机,内容有图片、视频、Po文、GPS位置信息等;
- 网站:包括流量分析,用户点击操作以及在线行为数据;
- 社交媒体:包括微博、微信、领英...
- 传感器设备:包括RFID射频识别、条形码、智能设备数据
- 企业:包括Web日志、应用日志、系统日志..
一般企业不可能一夜之间完成数据架构的转型,而是在原数仓基础上会逐步引入Hadoop,Spark等开源组件,对于这些企业来讲,大数据治理无非在原有治理框架下添加了新的业务和IT职能模块(下图绿色部分)。
关于新增的大数据治理部分主要分为以下- 六个领域:
- 首先是大数据战略与目标:在这一领域内需要定义业务目标;通过大数据的应用期望实现的业务价值;投入总成本TCO与回报率ROI;战略执行时间线以及评价指标;另外企业必须理解大数据技术发展迅速,上线前必须有POC阶段。
- 第二是人员组织建设:按照上图的职责分工,大数据职能该放置在业务、IT还是共享服务;数据科学家该放在什么部门,PMO还是业务部门;数据科学家的内部职级序列;谁来定义大数据的使用标准;大数据如何在业务与IT之间保持连贯性。
- 第三就是上面说到的大数据的规范使用:包括企业中大数据分析岗的角色设立以及大数据的分f析目标(是放在近期目标还是未来的机会领域);谁来评估分级大数据资产;新的数据消费者与数据生产者的动态关系以及数据管理流程须清楚明晰;新的大数据资产的生命周期管理;哪些外部数据有必要采集进来。
- 第四是大数据架构与技术:大数据架构与技术是丰富多样的,企业需要建立一个参考模型来监控新技术与工具,当然密切关注开源社区也能获得产品更新的一手资料;鼓励POC与灰度测试,不用急于明确企业数据标准;工具与技术的人员培训;处理NoSQL的关系型假设;需要注意的还有传统的存储架构在面临大数据的海量吞吐与多样性是的表现情况。
- 第五是大数据与信息的生命周期管理:大数据是辐射端到端信息管理全生命周期的,因此大数据战略下的数据保留策略也不得与法务、合规以及可靠性的要求相悖离;同样如前面提到的大数据是Schema on Read的模式,企业在不明确未来规划的前提下能否承受尚未使用的大数据所带来的存储负担;大数据在IT运维,备份/归档,灾难恢复等传统IT领域的影响。
- 最后的规划领域是数据安全:即对大数据集(扫一下盲,数据库是物理概念,数据集是逻辑概念即针对某一个业务目的的数据整体)和数据查询结果的所有者须有明确定义;匹配大数据的数据安全即数据访问策略的更新;如何解决数据私密性与合规风险;对于大数据项目下的第三方数据集如何管理访问规则。
从大数据治理的规划路线上,本座还是坚持以从上至下的推进方式,例如:
- 签发企业大数据与数据科学战略;
- 调整组织模型,定义大数据岗/部门和数据科学岗/部门职责;
- 定义与业务目标相匹配的大数据资源使用策略和执行文档;
- 定义大数据参考模型,参考架构及技术监控框架;
- 检查企业中现有数据的结构化假设是否有潜在问题,是否可以通过NoSQL及其他大数据工具替换原来受技术限制的RDBMS解决方案;
- 延伸现有的治理模式,完善企业大数据治理模型,并同步更新企业的信息标记语言(IML);
- 快速开展企业大数据与数据科学项目,从POC开始并积极寻找到业务赞助方。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
什么是T3机房?T1/T2/T3/T4机房等级对比详解
我们在购买IDC服务时都会选择T3机房或者T4机房,那么什么是T3机房?T3机房和T4机房有什么区别?服务器百科网来说说T1/T2/T3/T4机房等级对比详解: IDC机房等级划分 IDC机房的等级划分是根据《数据中心电信基础设施标准》而定的,它是美国国家标准学会(ANSI)颁布的,它将IDC数据中心(大型的设备和管理都比较完善的机房可以称为数据中心)基础设施的可用性定义了四种不同等级,即Tier 1、Tier 2、Tier 3和Tier 4四个等级。 四个等级分别对应数据中心的可用性指标及年平均故障时间: T1机房(通过基本认证):可用性99.671%、年平均故障时间28.8小时; T2机房(通过银级认证):可用性 99.741%、年平均故障时间22小时; T3机房(通过金级认证):可用性 99.982%、年平均故障时间1.6小时; T4机房(通过白金级认证):可用性 99.995%、年平均故障时间0.4小时。相关阅读:IDC双专线静态路由冗余上云方案 Tier等级标准的等级分类 机房等级 详细介绍 T1:基本机房基础设施 a) T1 基本数据中心拥有非冗余容量组件,以及一个单一的非...
- 下一篇
手把手教你阿里云服务器购买省钱攻略
现在提到申请购买云服务器,用户大多首先考虑的就是上阿里云,毕竟阿里云是目前国内最大的云服务商,但是往往用户在申请阿里云服务器的时候只是在ECS云服务器购买页一步一步的去买,其实对于我们大多数用户来说,申请购买阿里云服务器更应该考虑一下几个优惠活动: 如果我们所需要申请购买的阿里云服务器配置不是很高,那么我们应该考虑下面两个活动:活动一:全民云计算,入门级云服务器3折起(附:活动详情页)全民云计算活动是阿里云推出的一个长期优惠活动,活动推出的云服务器配置为突发性能t5实例(10%性能基线)1核1G、1核2G、2核4G,共享型n4实例1核2G、2核4G,计算网络增强型实例2核4G、4核8G,带宽有1M、2M、5M、10M可以选,同时用户如果一次购买三年可以享受跟2年一样的优惠价格。非常适合web应用前端机、轻负载应用、微服务、开发测试、小型 Web 应用、中小型数据等各行业通用计算应用场景。 活动二:Hi拼团优惠活动(附:活动详情页)Hi拼团推出的活动云服务器配置均为低配和中配的云服务器配置,而且用户可以选择直接购买享受3折的价格,也可以自己开团然后邀请他人一起购买享受2.4折起的更优惠价...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作