【数据湖开发治理篇】——数据湖开发治理平台DataWorks
数据湖的定义:
wikipedia中对于数据湖的定义是:“A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning.”
可见数据湖是一个通用的数据存储,通用到可以存储任意类型的数据。
数据湖要考虑的首要问题:
从定义看,一块u盘即符合数据湖的定义。u盘可以是数据湖,oss可以是数据湖,hdfs、盘古也可以是数据湖。它们均严格的符合数据湖的定义。作为企业的数据湖技术选型第一个需要考虑的问题就是:采用什么样的存储介质或存储系统作为自己的数据湖解决方案。众所周知,不同的存储介质或存储系统有不同的优势和劣势。比如:有的存储系统随机读取的响应时间更好、有的系统批量读取的吞吐量更好、有的系统存储成本更低、有的系统扩展性更好、有的系统结构化数据组织得更高效...相应的,这些提到的各个指标中有些恰恰是有些存储所不擅长的,如何享有所有存储系统的优势、规避所有存储系统的劣势变成了云上数据湖服务要考虑的首要问题。
要解决这个矛盾的问题,在理论上是不可能一劳永逸的。聪明的做法是对上提供一个逻辑上的存储解决方案,然后让需要不同访问特点的数据灵活地在各种底层存储系统中迁移。通过便捷的数据迁移(、以及数据格式转化)的能力, 来充分发挥出各个存储系统的优势。结论:成熟的数据湖一定是一个逻辑上的存储系统,它的底层是多个各种类型的存储系统所组成。
数据湖要解决的三大问题:
元数据管理、数据集成、数据开发是数据湖需要解决的三大问题,阿里云的DataWorks作为一个通用的大数据平台,除了很好的解决了数仓场景的各类问题,也同样解决了数据湖场景中的核心痛点。
元数据管理:
用户的湖上数据需要有个统一集中的管理能力,这就成了数据湖的第一个核心能力。dataworks的数据治理能力便是用来解决数据湖中的各类存储系统的元数据管理的。目前它管理了云上11中数据源的元数据。涵盖OSS、EMR、MaxCompute、Hologres、mysql、PostgreSQL、SQL Server、Oracle、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0 等云上主要数据源类型的元数据管理。功能上涵盖元数据采集、存储检索、在线元数据服务、数据预览、分类打标、数据血缘、数据探查、影响分析、资源优化等能力。
技术的宏观架构如图:
产品形态如图:
数据集成:
数据湖中的数据管理起来之后,就会面临数据在各个存储系统中迁移和转化的能力。为此dataworks的数据集成能力可以做到40种类常见数据源的导入导出及格式转化的能力,同时覆盖了离线和实时两大同步场景,以及可以解决对外对接时的复杂网络场景。
数据集成核心能力:
离线同步功能:
实时同步功能:
数据开发:
解决了数据湖的存储管理和数据迁移问题后,接下来就是如何让数据湖中的数据更好的赋能业务。这就需要引入各类计算引擎,计算平台事业部拥有丰富的各类计算引擎,有开源体系的spark、presto、hive、flink,还有自研的MaxCompute、Hologres,这里的挑战在于如何方便的发挥各类引擎的长处,让湖中的数据能够被各类引擎访问和计算。为此dataworks提供了便捷的数据迁移方式(方便数据在各类引擎中流转穿梭)、提供一站式的数据开发环境,从即席查询到周期的etl开发,dataworks提供了各个计算引擎的统一计算任务的开发和运维能力。
数据开发产品:
至此、dataworks在解决了数据湖底层的存储系统差异的难题后,提供了完备的湖上元数据管理、数据治理、数据迁移转换、数据计算的全流程能力。让阿里云上的数据湖更好的给客户发挥出业务价值。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Serverless Spark的弹性利器 - EMR Shuffle Service
背景与动机 计算存储分离下的刚需 计算存储分离是云原生的重要特征。通常来讲,计算是CPU密集型,存储是IO密集型,他们对于硬件配置的需求是不同的。在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。在计算存储分离架构中,可以独立配置计算机型和存储机型,具有极大的灵活性,从而降低成本。 存储计算分离是新型的硬件架构,但以往的系统是基于混合架构设计的,必须进行改造才能充分利用分离架构的优势,甚至不改造的话会报错,例如很多系统假设本地盘足够大,而计算节点本地盘很小;再例如有些系统在Locality上的优化在分离架构下不再适用。Spark Shuffle就是一个典型例子。众所周知,Shuffle的过程如下图所示。 每个mapper把全量shuffle数据按照partitionId排序后写本地文件,同时保存索引文件记录每个partition的offset和length。reduce task去所有的map节点拉取属于自己的shuffle数据。大数据场景T级别的shuffle数据量很常见,这就要求本地磁盘足够大,导致了跟计算存储分离架构的冲突。...
- 下一篇
金融新基建,数讯云赋能
根据中国人民银行印发的《金融科技(FinTech)发展规划(2019-2021年)》,到2021年,建立健全我国金融科技发展的“四梁八柱”,进一步增强金融业科技应用能力,实现金融与科技深度融合、协调发展。 2019年大火的《BANK4.O》说:“金融服务无处不在,就是不在银行网点”。越来越多银行已选择开启数字化银行战略,来赢得竞争优势。但目前仅30%左右的银行核心系统被替代,有更多的系统等待改造。在改造过程中,根据安永的《全球银行IT 2018年展望》调查,仅37%的银行希望内部单独开发新技术与新系统。数讯新型金融行业综合通信服务,为金融数据创新服务提供融合继承与创新发展的基础平台,助力金融机构致胜“数据中心、云服务、网络融合”的新基建时代! 图:数讯产品负责人张颖,分享新型金融行业综合通信服务 在本次健康保险科技峰会上,数讯产品负责人张颖,为嘉宾展示介绍了数讯金融新基建服务。数讯提供立足于“数云网一体化、混合托管、高可用以及极致服务”的,全新面貌的新型融合通信服务,核心业务有四大板块:数据中心、云计算、网络服务,和各类IT增值服务。数讯以高品质、高保障、前沿性的通信服务获得了众多金融...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7设置SWAP分区,小内存服务器的救世主
- Mario游戏-低调大师作品
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题