华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值
摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。
本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值》,作者:breakDawn。
1 背景
1.1 数仓和数据湖的概念
数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。
- 大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为DWS等
- 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。
1.2 传统湖仓技术的挑战
以上技术在多年的实践中,逐步衍生出了以下的一些挑战:
- 随着数据和AI业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据ETL操作才能共享。
- 数据湖、数仓、AI数据化,导致数据虽然可以统一存储在OBS孤岛,但各服务元数据独自管理,形成数据管理的孤岛。
- 湖仓协同仅能通过外表来访问,元数据、认证、权限都不能统一配置和管理,尤其是权限不统一严重阻碍了数据跨引擎共享。
上述问题导致了构建、保护和管理数据湖的过程复杂且耗时,通常需要大量开发和维护成本,解决这一问题的关键在于引擎元数据需要互通,只有构建满足各种引擎需求的数据湖统一元数据服务视图,才能实现数据共享,避免其中额外的ETL成本以及降低链路的延时。
1.3 湖仓一体架构的出现
为了解决上述数据湖的相关挑战,2019年左右,业界开始出现一种新的数据架构,叫做DataLakehouse(湖仓一体),它同时吸收了数据仓库和数据湖的优势,能够在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据和权限管理。因此数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,为公司进行数据治理带来更多的便利性。
2 华为lakeFormation服务关键能力
华为LakeFormation是企业级的一站式湖仓构建服务,提供了数据湖元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持无缝对接多种计算引擎(Hive、Spark等)及大数据云服务(MRS、DLI等),使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值,是数智融合的关键基础设施。该产品具有以下关键能力:
- 丰富的元数据和数据权限管理
华为lakeformation支持Catalog和跨源管理,以及库/表/函数的集中管理,可解决多种不同元数据类型之间互有差异的痛点,无需再引入第三方ETL进行查看和管理,并实现了统一的细粒度数据权限管理,支持跨服务/跨集群的数据共享。
- 生态开放
华为LakeFormation兼容社区接口、支持平滑对接和迁移,提供了兼容Hive/Spark/Flink/Trino社区的元数据接口,支持计算引擎平滑对接,同时兼容Ranger的权限接口,支持一次授权,统一生效。
- 大规模、高可靠
华为LakeFormation支持处理海量数据业务,具有百万级超大规模元数据管理能力,以及多AZ的容灾能力,可为业务持续性提供稳定保障,且采用Serverless架构,开箱即用,简单易上手。
3 华为云MRS支持lakeformation创造数据价值
3.1 Lakeformation给MRS带来的场景价值
以数智融合场景为例,当大数据用户在MRS中创建了表T1时, 数仓用户可通过lakeformation观察到表T1的元数据,并通过DWS写入正确的数据内容。
当AI用户希望通过华为ModelArts读取T1数据时,可借助lakeformation查看T1表,再进行T1数据的获取,整个过程中减少了MRS和其他产品联合协同运作时的复杂ETL操作,大大提升了数据使用的效率。
另外,当企业用户的安全管理员希望对不同MRS集群中同一业务类型的元数据进行ranger权限限制时,可通过lakeformation按下图所示的步骤进行操作,整个过程一次授权,统一生效,充分提高了管理效率,简化管理流程。
3.2 MRS服务对接lakeformation能力展示
华为MRS用户可基于最新上线的LakeFormation数据连接能力,实现lakeformation实例的创建和授权。
在MRS控制台的数据连接页面,支持创建如下图所示的lakeformation数据连接:
建立完成lakeformation数据连接后,即可在MRS集群概览中,配置该数据连接,实现MRS和lakeformation之间的数据关联。
后续再根据产品资料指导完成MRS集群组件相关配置后, 即可正常使用LakeFormation统一的数据湖元数据及权限管理,实现元数据的管理互通、统一赋权,根据统一的元数据进行业务作业提交等。
当用户在lakeformation中针对MRS集群的catalog建立了department表后
其他用户可在对应MRS集群的hive客户端中观察这个department表的元数据。
反过来,用户通过MRS的hive客户端创建一个employe表后,可以在lakeformation中看到该元数据信息。
另外也可通过数据权限能力,修改数据表的权限策略,并直接同步到MRS的权限管理组件中。
4 总结
对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Stable Diffusion 数据集提供商开源类 ChatGPT 项目
这几天 AI 领域热度不减、新闻层出不穷 —— Google 公布了 Bard、微软将 AI 集成进必应搜索和 Edge 浏览器、百度也公布类 ChatGPT 项目文心一言,近日 LAION 也开源了一个类 ChatGPT 项目 —— Open Assistant。 LAION 是一个德国非营利组织,这个名字你可能不太熟悉,但 Stable Diffusion 和 Imagen 这两个知名的「文本转图像」模型所使用的训练数据集就来自于 LAION,而该组织的目标就是「向公众提供大规模机器学习模型、数据集和相关代码」。 LAION 开发的类 ChatGPT 项目名为 Open-Assistant,这是一个 AI 聊天机器人项目,能够理解自然语言问题,可以与第三方系统交互并动态检索相关信息。该项目代码是用 Python 编写的,并在 Apache 2.0 许可下发布。 官方在项目愿景中写道: 我们不会止步于复制 ChatGPT。我们希望建立未来的助手,不仅能够写电子邮件和求职信,而且能够做有意义的工作,使用 API、动态研究信息等,并能够由任何人进行个性化定制和扩展。我们希望以一种开放和可...
- 下一篇
课程回顾|一键式全智能生产制作,设计有生命力的剪辑流程
本文内容整理自 「智能媒体生产」系列课程第一讲:概念、原理和基本使用,由阿里云视频云媒体服务技术负责人分享智能媒体生产的领域与定位、构架与服务层次、基本概念与技术原理,以及如何一站式开发接入视频制作业务。课程回放视频见文末。 “超视频化”时代,云计算打破产业原有壁垒,推动技术演进发生。媒体生产制作的云端一体服务,为整个泛视频产业带来新的变革,而「智能媒体生产」就是聚焦这一领域的企业级视频制作工具。 01 剪辑:核心且有生命力 智能媒体生产在视频生产与消费过程中处于什么位置?从全链路看,视频从采集开始,历经生产制作、管理、分发和消费,而生产制作处于「制播」流程中「制」这个环节。 视频生产与消费也发生了趋势上的转变。以生产制作为例,从只有专业人员使用专业的软件,使用非编、转播车工具才能进行制作,到越来越多的人可以在移动端使用一键美颜,在Web端使用各种剪辑工具进行内容生产。 从人工制作到AI全面参与,从专业、小众的制作团队,到普罗大众,从被动接收到个性互动,在趋势的变化过程中,互联网和云计算起到了至关重要的作用。而云上生产制作,就是智能媒体生产服务的领域。 生产制作,在视频全链路中的比重将...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境