企业面临哪些数据湖管理挑战?
成功的数据治理方案涉及部署策略、标准和流程,以在整个企业中有效正确地利用高质量数据。如果你的企业具有数据湖环境,并希望从中获得高质量的分析结果,则你需要部署正确数据湖治理,作为整体治理计划的一部分。
但数据湖给企业数据管理的方方面面都带来挑战,包括数据治理。在开始讨论治理挑战前,我们有必要定义什么是数据湖:一种可容纳大量原始数据的数据平台,这些数据通常以其本机格式保留,直到需要用于分析。
传统的数据仓库将数据存储在关系表中,而数据湖则使用平面结构。每个数据元素被分配唯一标识符,并用一组元数据标签进行标记。这就是说,数据湖没有数据仓库那么结构化。在访问数据进行分析时,数据会被分类和整理,而不是在将数据加载到数据湖中时。
有效的数据治理使企业能够提高数据质量和一致性,并很大程度地利用数据进行业务决策,从而可以改善业务规划和财务绩效。数据治理的配套数据管理学科包括数据质量、元数据管理和数据安全性,所有这些因素都影响到数据湖治理。
现在,让我们看看下面5个数据湖部署中的数据治理挑战。
1.识别和维护正确的数据源
在很多数据湖部署中,源元数据没有被获取或根本不可用,这使得数据湖内容的有效性令人质疑。例如,可能未列出记录系统或数据集的业务所有者,或者显然冗余数据可能会给数据分析人员造成问题。至少应记录数据湖中所有数据的源元数据,并使用户可以使用它来了解其出处。
2.元数据管理问题
元数据为数据集内容提供背景信息,并且是使数据在应用程序中易于理解和可使用的重要组件。但是很多数据湖部署忽略了对收集的数据应用正确数据定义的需求。而且,由于原始数据通常被加载到数据湖中,很多企业没有采取步骤来验证数据或对其应用企业数据标准。缺少适当的元数据管理使得数据湖中的数据对分析的用处不大。
3.在数据治理和数据质量方面缺乏协调性
不协调的数据湖治理和数据质量工作会导致劣质数据进入数据湖。当这些数据用于分析并驱动业务决策时,这可能导致结果不准确,从而导致丧失对数据湖的信心以及整个企业对数据普遍不信任。有效的数据湖部署需要数据质量分析师和工程师与数据治理团队及数据管理员密切合作,以部署数据质量策略、分析数据并采取必要的措施来提高其质量。
4.在数据治理和数据安全方面缺乏协调性
在这种情况下,如果数据安全标准和策略未被正确纳入治理流程中,可能会导致无法访问受隐私法规和其他类型的敏感数据保护的个人数据。尽管数据湖旨在成为相当开放的数据源,但仍需要安全性和访问控制措施,并且,数据治理和数据安全团队应携手完成数据湖设计和加载过程,以及持续的数据治理工作。
5.使用相同数据湖的业务部门之间的冲突
不同部门对于相似数据可能具有不同的业务规则,这可能导致无法协调数据差异以进行准确的分析。完善的数据治理方案应具有对数据策略、标准、流程和定义的企业视角,包括企业业务词汇表,这可减少多个业务部门使用同一数据湖时出现的问题。如果企业有多个数据湖,则每个数据湖都应包含在数据湖治理流程中,并为其分配业务数据管理员。 总之,通过在数据湖的设计、加载和维护过程中加入强大的数据治理、元数据管理、数据质量和数据安全流程,并由所有这些领域的经验丰富的专业人员积极参与,可显著提高数据湖的价值。否则,你的数据湖可能会变成数据沼泽。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Veeam Availability Suite v10正式发布:为云中数据安全保驾护航,充分释放数据价值
【51CTO.com原创稿件】 在企业的数字化转型中,云已经成为必不可少的选项。随着云计算技术的发展,混合云成为未来企业上云的首选。数据显示,73%的全球企业正在将应用从公有云迁回本地部署,60%的受访企业认为安全是影响企业未来云战略的最显著的因素,大约85%的受访者认为今后混合云将是最佳的IT的运营模式。 随着企业构建混合云策略来加速数字化转型,数据管理已然成为商业成功的关键。在聚焦发展数据创新以加速业务发展的同时,如何确保所有数据敏捷、可用和连接方面出现了新的挑战。据2019年Veeam云数据管理报告显示,有73%的组织无法满足用户对持续不间断访问应用程序和数据的需求。现在,许多公司正在寻求用云数据管理的方法,更好地满足数据保护的需求,发挥数据的强大作用。为此,Veeam公司于2020年2月19日正式发布了Veeam Availability Suite v10,以满足企业在混合云时代对于数据管理和保护的需要。 Veeam 中国区总经理张弘在接受记者采访时表示,随着我国加快数字化转型,企业对数据的灵活性、可用性和连接性提出了更高的要求。新的Veeam Availability Su...
- 下一篇
k8s数据持久化之statefulset的数据持久化,并自动创建PV与PVC
一:Statefulset StatefulSet是为了解决有状态服务的问题,对应的Deployment和ReplicaSet是为了无状态服务而设计,其应用场景包括:1.稳定的持久化存储,即Pod重新调度后还是能访问到相同的持久化数据,基于PVC来实现2.稳定的网络标志,即Pod重新调度后其PodName和HostName不变,基于Headless Service(即没有Cluster IP的Service)来实现3.有序部署,有序扩展,即Pod是有顺序的,在部署或者扩展的时候要依据定义的顺序依次依次进行(即从0到N-1,在下一个Pod运行之前所有之前的Pod必须都是Running和Ready状态),基于init containers来实现4.有序收缩,有序删除(即从N-1到0) 因为statefulset要求Pod的名称是有顺序的,每一个Pod都不能被随意取代,也就是即使Pod重建之后,名称依然不变。为后端的每一个Pod去命名。 从上面的应用场景可以发现,StatefulSet由以下几部分组成: 1.用于定义网络标志的Headless Service(headless-svc:无头服...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境