分布式及高可用元数据采集原理
转载本文需注明出处:微信公众号EAWorld,违者必究。
引言:
元数据采集是元数据产品的核心部分,如何提升采集效率是需要仔细斟酌的事情,既要保持稳定性也要保持跟上主流技术的发展趋势。元数据产品从最初集中式WEB应用系统到现在流行的分布式、微服务这种系统架构,原有元数据采集效率已不能满足应用的需求了。
目录:
1.元数据采集原理
2.分布式采集策略
3.分布式采集策略的应用
1.元数据采集原理
我们要想采集元数据首先得明白,什么是元数据,元数据都存在哪里,为什么采集元数据?
元数据MetaData通俗的解释是用来描述数据的数据,实际来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据库的Schema、Table、Column信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。
以大数据平台为例,元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、数据主题库专题库元数据、服务层元数据、应用层元数据等。
数据治理关键就是收集信息,很明显,没有数据就无从分析,也就无法有效的对平台的数据链路进行管理和改进。所以元数据管理平台很重要的一个功能就是信息的收集,至于收集哪些信息,取决于业务的需求和我们需要解决的目标问题。
如何采集元数据?
元数据采集是指获取数据生命周期中的元数据,对元数据进行组织,然后将元数据写入数据库中的过程。
不同来源的元数据获取获取方式也不大相同,在采集方式上有使用包括数据库直连、接口、日志文件等技术手段,对结构化数据的数据字典、非结构化数据的元数据信息、业务指标、代码、数据加工过程等元数据信息进行自动化和手动采集,元数据采集完成后,被组织成符合CWM模型的结构,存储在关系型数据库中。
2.分布式采集架构
现在人们对元数据管理工具采集的元数据时效性越来越高,我们元数据管理工具会管理很多来源的元数据,配置很多采集任务定时去采集,如何高效的完成采集任务,影响着元数据管理工具存储的元数据时效性。我们原先采集任务策略是单一采集程序串行执行采集任务,这样的策略采集效率是很低的,为了提高采集效率,我们就采用多个采集程序并发执行采集任务。
常见的元数据管理工具架构是传统的集中式WEB应用架构,所有的功能模块都集中在一个应用程序中。
3.分布式采集架构的应用
我们在某一证券公司做数据治理时,发现该客户的网络架构比较复杂,它的网络架构大概分为三层业务系统层、数据采集层和数据存储层。
业务系统分布业务系统层的不同地域,比如A业务系统在北京,B业务系统在上海,C业务系统在广州等。我们要想访问个各个业务系统的数据库只能通过数据采集层的代理IP去访问,不同地域的业务系统代理的IP地址网段也是不同的,数据采集层各个网段之间不能连通,数据存储层是可以和数据采集层的所有网段直接连通的。
我们现在元数据的架构是分为应用程序和采集服务两部分,应用程序和采集程序是一对一的关系,针对这种网络情况,我们要对元数据产品的架构做调整。
一、将元数据的应用程序与采集服务改为一对多模式,这样我们得需要一个采集服务管理模块,可以对采集服务的信息(IP,端口)进行维护(增删改),采集的目标数据源与采集程序服务进行映射,一个目标数据源可以配置主备采集服务,主采集服务发生故障后,可以通过备采集服务继续采集工作。
采集服务管理模块要考虑易操作性和适用性,如:查看采集服务运行情况、设置默认采集服务等等。
二、元数据采集任务调整为并行执行,现在采集元数据步骤为获取元数据>入临时表>与正式表比对,更新元数据ID,得到元数据的变更信息>将元数据和变更信息入正式表。
采集任务调整为并行执行的主要的难点是如何取消临时表,因为临时表在元数据存储数据库中只有一份,只有等待当前采集任务执行完毕,清空临时表后,才能执行下一次采集任务。
临时表的作用是:
更新元数据ID和找出新增、修改和删除的元数据,采集元数据时,都会给每一个元数据生成随机的UUID当作元数据ID,与正式表作比对时,如果某一元数据之前已经入库,需要将该元数据的临时表里的ID更新成正式表里的ID。
取消临时表的举措:
1、我们选择将元数据编码+元数据类型+元数据父级路径这三项数据进行MD5加密生成的字符串作为元数据的ID,这样元数据的ID也就固定了,不需要和正式表里做比对了。
2、通过元数据ID去正式表里查询就可得出哪些元数据是新增和删除的。
我们将元数据的所有属性值进行MD5加密生成的字符串作为元数据的属性ID,这样通 过比对元数据的属性ID就可得知该元数据是否修改了。
这样我们就可以取消临时表,在采集服务程序中就可以将元数据和正式表数据作比对,得到变化的元数据,将元数据记录直接写入到数据库中的正式表,元数据采集任务也就可以并行执行了。
我们在数据采集层各个网段都部署采集服务,这样就实现了高并发元数据采集,这种分布式采集策略优点是:
1、采集元数据效率快
2、可以并行执行采集任务
3、可以适应复杂网络环境的元数据采集。
关于作者:追风,普元高级软件工程师,参与普元Metacube7GA设计及研发;有银行、证券等行业数据治理实施的经验。互联网技术爱好者,热衷于研究各种优秀的开源代码,致力于成为一名有腔调的工程师。
关于EAWorld:微服务,DevOps,数据治理,移动架构原创技术分享。长按二维码关注!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
在LINQPad中使用Ignite.NET
LINQPad是进行.NET开发的一款优秀工具,非常有利于Ignite.NET API的快速入门。 入门 下载LINQPad:linqpad.net/Download.aspx,注意要选择64位操作系统的AnyCPU版本; 安装Ignite.NET的NuGet软件包: 按F4(或点击Query -> References和Properties菜单项); 点击Add NuGet…,可能会出现警告:As you don't have LINQPad Premium/Developer Edition, you can only search for NuGet packages that include LINQPad samples.,这是正常的,因为Ignite软件包确实包含LINQPad示例; 通过单击Add To Query按钮来安装软件包; 点击Add namespaces按钮,并(至少)添加第一个:Apache.Ignite.Core; 关闭NuGet窗口,在Query Properties窗口上单击OK; 确认Language下拉框设置为C# Expression(默认...
- 下一篇
互斥那点事儿(上)
本年度第 10 次操作系统成员会议开始啦! 一月一度的会议旨在让大家互相交流,解决最近在工作中出现的问题,以提高整个计算机系统的工作效率。因为计算机硬件在飞速发展,而操作系统是连接计算机硬件和应用程序的中间层,如果故步自封,很快就会被市场淘汰,所以每位操作系统成员都很重视月度会议。 这次提出问题的是进程和线程两兄弟。 站在众人前面,线程显得有些怯场,他戳了戳进程,示意让他先来讲。进程迅速整理了下思路,挺直了身板,说:“这次的问题是在一个订票系统里发现的,我把这个系统的简单逻辑画出来了,你们一边看我一边说。” “这个订票系统分为服务器端(server)和客户端(client),当用户与服务器建立连接时,服务器端就会建立一个新的线程来为客户端提供服务。订票逻辑是这样的: 单独从这个逻辑图上看是没有问题的,但在实际情况下,因为经常出现多个用户同时抢订一张票的情景,这种方式就可能会出错。就像这样: 在线程 A 确定完余票(假设是 1),但还未能成功订票之前,线程 B 得到了余票数为 1 的信息,所以 B 也认为可以订票,最后导致一张票卖出去两份。“ 内存一针见血的道:“我看这就是几个线程执行流...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池