数据架构师: 您要治理什么?
Robert Catterall 是一位数据库专家,他想确定实现数据治理的必要性。在 IBM Information Governance Solutions 的主管 Steven Adler 的帮助下,他探索了数据治理的原则以及它如何帮助数据库团队。
我是一位数据库工作者(更准确地说,是 DB2 工作者)。我的工作处于 IBM Information Management 软件组合的低层。如果说那些从事分析、主数据管理、数据集成和其他高层软件技术的人是数据巨轮的高级船员,他们站在舰桥上,穿着带金色肩章的白制服,用双筒望远镜了望远方,那么我是在轮机舱工作。当舰桥上传来指令,命令我加快数据流动的速度时,我回答说,“我们已经到极限了,船长!” … 但是我仍然要想办法完成任务。你们成天谈论战略和模式,而我谈论的是比特和字节、速度和供应。欢迎来到我的世界。好了,不打比方了,我们来讨论实际问题吧!
我曾经遇到过许多似是而非的概念,最近遇到的一个是 “数据治理”。对不起,长官,但是这听起来是针对某个问题的解决方案。让我告诉您一个小秘密:数据是没有自主行动力的,这意味着它不需要 “治理”。它需要操控,我和我的朋友们能够应付,谢谢您。请找别的什么东西去 “治理” 吧!
您说什么?您在谈到治理数据时,实际上是打算治理别的什么东西?OK,现在我感兴趣了。请多说点儿,我洗耳恭听。
重点在于人
关于数据治理,我应该听取谁的意见?没人比 Steve Adler 更合适了,他是 IBM Information Governance Solutions 的主管和 IBM Information Governance Council 的主席。他在电话上告诉我 “数据治理” 这个词在修辞方面的矛盾性实际上是有意义的:它提醒人们提出问题。“‘数据治理’ 究竟是什么意思?” 谈话就此展开了。Adler 指出,真正的目标是对行为进行治理。
人与数据库交互:他们引导数据流的走向;他们解释并处理数据请求。人也会犯错 — 常常是由于他们采用的过程和依赖的应用程序系统有缺陷 — 这会在信息管道中引入错误,给下游造成数据质量问题。Adler 指出,数据治理的意图主要是系统化地找到并解决可能引入错误的点。目标是形成决策者能够信任的数据 — 还要向他们提供数据可信的证明。
这是一个很不错的说词。但在加入您的事业之前,我想看看 “蓝色巨人” 是如何吃 “垃圾食品” 的。Adler 问我是否了解 IBM 的产品目录。我确实了解 — 毕竟我为 IBM 工作了 17 年。IBM 有大量信息,有多达 1.2 亿条记录。显然,这些记录中很大一部分包含错误的信息:错误、缺失和未及时发布的数据。在 255 个 IBM 产品公告中,只有 5 个完全没有错误。这真是让人震撼的统计数字。
为了找出数据质量问题的来源,团队在通向生产数据库的数据流中不同的位置上设置 “捕捉器”。捕捉器帮助团队发现在特定条件下可能发生的错误。找出问题的原因之后,团队就可以设计和实现基于过程和基于技术的解决方案,从而消除不准确的信息的来源。
不是我的问题(也许是?)
我想,只要消除可能导致数据质量问题的条件就行了,所以由您负责。我希望您成功。不需要围着我和 DBA 照管的数据库打转 — 它们很可靠。有多可靠?精确度至少有 99.9%。我谈论的数据库有多少数据记录?生产数据库可能有超过 10 亿条记录。是的,由于数据库规模如此之大,尽管错误率非常低,错误数量仍然相当大。好吧,您说的有道理。在数据库内部和周围放上一些捕捉器可能是好主意。
Adler 说,但是不要就此止步,因为数据质量问题不仅仅是数据记录不准确。有时候,急迫的问题是必须处理数据分类。例如,一个组织通过并购形成了更大的规模,最终通过多个业务线为更大型的企业客户提供服务。客户公司之一抱怨说,当他们通过不同业务线的代表向服务提供组织提出同一个问题时,却得到了不同的回答。这是因为对于不同的业务线,相同术语的含义不同。这是数据定义问题 — 数据治理要通过有效的主数据管理 (MDM) 消除此类问题。
如何从 A 到 B?
我承认,我开始看出数据治理的一些价值了。这个概念不像我最初认为的那么不知所谓。但是,看到潜在价值和获得实际价值是两回事儿。如何通过数据治理工作获取价值?从哪里做起?如何推动不断进步?
Adler 告诉我他喜欢的方式分为六个步骤:
确定目标。一些目标可以有变动,其他目标是固定的(例如处理数据质量问题)。是的 — 在出发之前,必须明确要去哪里。
确定要度量什么。如果想要提高数据质量,那么如何能够知道是否已经取得了进步?可能要检查存储库中一定比例的文档,记录信息不正确或缺失的情况。决定度量的过程和条件对于评估基线情况和跟踪过程很重要。我明白了。说说容易:如果想要说服人,就要提供数字。
了解组织的决策模型。是专制模型?代表模型?还是民主模型?无论是哪种,它适合您的公司吗?您正在开发的数据治理策略支持这种决策模型吗?决策 “更好” 的含义是什么?需要做出大量决策吗?还是要更快地做出决策?我想,在改进数据质量时,总是要花时间评估数据在自己的环境中如何驱动决策。可能会发现需要改进的东西。
有效地传播数据治理策略。如何把策略的相关信息告诉相关人员和感兴趣的其他各方?通过电子邮件?通过时事通讯?不能只依靠同事之间的口头交流。
度量结果。数据治理策略取得的实际效果如何?如果已经制定了度量进展的计划(这个列表中的第二项),那么得到具体的数字应该不太困难。解释这些数字会很有意思。
审查整个数据治理工作。是否采用了适当的过程?是否应用了适当的技术?是否实现了有效的控制?“审查” 这个词有点儿让我不舒服,但是我知道对于策略来说这是不可缺少的,无论是数据治理策略还是其他策略。我不喜欢评判别人的工作,但是我理解有时候需要这么做。
这些是非常高级的检查项,具体的项目计划应该远远不只六个步骤。但是,在面对复杂的任务时,以适当方式对难题进行拆分确实有助于明确工作重点。对于我来说,Adler 的方法看起来是不错的问题拆分方式。可以以此为基础开展工作。
好吧,我接受了
一个城市的居民嘲笑另一个城市时会说,“那儿没有 ‘那儿’ 这个概念”。我过去也是这么看待数据治理的:很有意思的概念,但是拜托 — 它有什么实际意义吗?Steve Adler 在关于数据治理的业务价值的争论中说服了我。我现在认为数据治理是有价值的。
因此,如果信息管理领域的大人物再到数据库 “轮机舱” 与您谈论数据治理,那么好好听他们说。最好考虑一下自己能够在哪些方面发挥作用。宏大的计划如果能够参考实干家的意见,往往会取得更好的结果。
就到这里吧。也许我会在咖啡机旁遇到您。谁知道呢?也许我们会轻松地谈论一下数据治理。
本文作者:佚名
来源:51CTO

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
应用交付:从技术向服务转型的时机已经到来
在当今的IT环境中,应用无疑处在最核心的位置之一。我们可以最直观的看到,在刚刚过去的2015年“双十一”电商促销中,天猫超过900亿元人民币交易额的背后,实际就是一连串应用把买家、卖家、平台乃至银行联系在一起。在F5关于亚太区应用使用形态的调查中可知,现在一个企业或机构平均运行的应用以超过了200个。而我们每个人手机、电脑以及其他设备中正在运行的应用至少也是数以十计。是以,当我们经历了软件即服务、存储即服务、基础架构即服务……以来,应用交付也到了从技术、解决方案向服务转型的最佳时机。 不同以往,在当今这个快速发展的IT环境,“按需部署”早已成为企业的常态需求。无论企业还是个人,都希望自己的应用可以随时可用。如果一个企业无法满足用户的应用需求,损失用户乃至损失利润都将不可避免。另一方面,由于新技术的快速更迭,如电信、金融等等企业需要随时保持自己的基础架构始终灵活,从而能够更快的部署应用,提升自己的核心竞争力。这就更将提升应用交付与应用管理的复杂程度。 随着需求与IT大环境“双重复杂度”的提升,CIO们已经不能从单纯的一个维度、诸如安全、SSL、接入控制等方面考虑应用环境。举例而言,我们将...
- 下一篇
《UX最佳实践:提高用户体验影响力的艺术 》一2.2 什么是SAP Business ByDesign
2.2 什么是SAP Business ByDesign SAP Business ByDesign是SAP新推出的按需配置的企业管理解决方案,主要面向中小型企业。这一解决方案因其存在很多创新之处,可以使其区别于市场上的其他产品。SAP Business ByDesign是全球最完备、最灵活、按需配置的企业管理解决方案。与其他按需配置的企业管理软件不同,SAP Business ByDesign(见图2-2)让企业端到端的每个流程都更透明且易于掌控,这其中包含了客户关系管理(CRM)、供应商关系管理(SRM)、供应链管理(SCM)、财务管理(FIN)和人力资源(HR)。此方案让企业能立即对自己的情况进行360度掌握,并且它简单易用,能快速配合商业需求的变动。 SAP Business ByDesign设计时考虑了以下几个关键原则: 坚
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题