湖仓一体雷声大雨点小?这三点需要关注
本期单口开源我们请到马进来和大家聊一聊 “湖仓一体”。
马进:网易数帆大数据实时计算技术专家湖一体项目负责人
大家好,我是来自网易数帆的马进,今天跟大家聊聊湖仓一体。
湖仓一体是个舶来词,英文名称叫 Lakehouse,最早由 Databricks 公司在 2020 年提出。在 Databricks 的理念中,传统数据湖在批计算、AI、机器学习等领域有丰富的资源和实践,但是在流计算、数据质量和数据治理方面相较于传统数仓有较大不足。
为此,Databricks 提供了 Lakehouse 平台,基于数据湖之上,可以提供不弱于传统数仓的能力,也能享受数据湖在 AI、机器学习、批计算上的积累。
Databricks 作为一家商业化公司,讲述的 Lakehouse 的故事必然有营销的成分在,但必须承认的是,Lakehouse 这个概念已经深入人心。包括 Databricks 的老对手 Snowflake 也将自己标榜为 Lakehouse。在 Databricks 的故事里,Delta 是 Lakehouse 的存储底座,目前开源社区中,Iceberg 和 Hudi 也是和 Delta 对标的产品。所以现在行业内普遍会把 Lakehouse 与 Delta、Hudi 以及 Iceberg 关联到一起。
过去两年,我们与很多同行一起致力于将新型数据湖的技术应用到生产实践中。我们将这些项目的能力拆为两部分,第一部分是对现有方案的平替,比如说数据湖的 CDC 代替消息队列,基于数据湖的 Upsert 和读时合并代替 Kudu 这类实时数仓方案;第二部分是现有方案不具备的功能,比如时间旅行、数据回退、模式演进。
对第一部分而言,遇到最大的挑战是纯粹拿 Lakehouse 的理念去平替消息队列或者其他实时数仓的选型,在成熟度和性能上会有挑战;对第二部分的功能,比如时间旅行,对现有的用户规范或者用户的使用方式中很难起到非常大的收益。
所以,不少同行可能会有这样的感受,数据湖这个方向的技术虽然很热,但是实际上能落地的场景却不多,或者落地后能讲清楚的价值不多。
我们怎么来看待这个问题?
首先我们要相信,Lakehouse 指向的愿景,本身是非常有价值的。这个问题需要自顶向下地看。
回顾前十年的发展,在 2010 年到 2015 年间,Hadoop、Hive 这套数据湖体系在用户体量上有非常大的增长,现在基本成为离线数仓的事实标准。而围绕 Hadoop、Hive 以及在云端对象存储构建的数据研发的工作流,数据安全、数据地图、指标系统、模型以及支撑这套数据建设的方法论,大概是在 2015 年之后才逐渐成熟。
目前我们的用户基于这套数据建设的方法论,在构建离线数仓时已经形成了非常清晰的规范,用户的体量本身也会很大,但是对流和实时的场景,由于 Hive 在流事务能力上的缺失,行业内普遍采用 Kafka、Flink、Kudu、Doris,甚至一些数据库来做实时数仓的选型。而这些流程目前在数据建设的主流程里,其实是没有覆盖到的,需要用户自己去学习、理解和使用这些不同的系统。这里面会带来成本、人效、语义二义性等诸多问题。而 Lakehouse 的目标应当是将数据建设的方法论从离线拓展到流和实时,同时通过开放的表和文件格式、流批统一的数据加工流程,更好支持到AI、机器学习等领域。
从上面的分析我们可以得出三个结论:
- 用户使用 Delta、Iceberg、Hudi 这些技术的时候,要理解这三个项目,目前更多是 TableFormat 的定位,是对数据湖表格式的一层元数据封装,不等价于Lakehouse。Databricks 自己也没有说过,Delta 就是 Lakehouse。但是这三个项目所引领的表格式的功能是构建 Lakehouse的基础,而这个基础距离领先的Lakehouse实践。还差一层管理系统或者Lakehouse服务,这套服务应当在基础软件层为用户解决流式处理、数据优化、流批一体封装的问题。
- 用户在实践 Lakehouse 时,在关注新功能的同时,不应当把他当做 Hive 或者已有数据湖之外的一套东西,应当考虑怎么将现有的体系扩展到新的TableFormat之上,让现有的离线用户通过统一的交互和规范可以直接将离线产品拓展到实时和更多AI场景。在这个过程中,体系建设者要考虑兼容性问题、架构的共存问题,尤其对一些已有的离线业务去拓展实时场景,需要架构师去考虑怎么在对现有业务更小侵入的前提下把实时的方案构建出来,这样天然就是流批一体的。
- Lakehouse 的技术,目前还有很多不成熟的地方,比如实时写入会产生很多小文件,怎样为业务提供透明无感的数据优化服务,生产可用的读时合并应当怎么度量数据新鲜度,性能怎样保障等。
针对上面提出的问题,经过两年的探索、研发和实践,我们团队在7月底开源了流式湖仓服务 Arctic 这个项目。Arctic 是基于开源 TableFormat 之上的湖仓管理服务。对上面提出的问题,我们在这个项目中都提供了解决方案,欢迎大家来关注。
刚才提到从Hadoop生态的应用到上层建筑的完善,其实中间有至少3-5年的时间,而Lakehouse目前还处于非常早期的阶段,我们期待与行业内更多的小伙伴
一起构建领先的Lakehouse实践,欢迎大家关注和参与到我们这个项目。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
社区点赞业务缓存设计优化探索
原创 慎之 得物技术 背景 内容点赞业务在得物社区中是一个非常高频的业务场景,功能本身复杂度不高,但是业务场景多、QPS高、而且由于社区的用户体量,整体点赞的数据量非常大。其中最核心、对响应性能要求最高的主要是“用户是否点赞内容”和“内容点赞数”场景。 在得物社区中凡是有内容消费的场景,都会有上面两个点赞场景的处理,所以整体点赞业务的QPS在社区都是非常高的。当我们在刷各种Feed流时,每一次下滑,都需要对数十篇内容进行登录用户是否点赞状态的判断。作为基础业务,内容点赞业务的高性能响应,对上游内容场景的消费体验有极大的影响。 本文对得物社区的点赞业务如何做到高性能响应以及历史上在缓存使用上关于高性能、稳定性、低成本上的优化探索过程进行讲述,希望能给读者带来一些收获。 演进探索 v1.0版本 功能需求 社区各种Feed流及内容详情页“登录用户是否已点赞内容” “内容被赞总数” “内容最新点赞用户列表”几个场景消费展示。 实现方案 点赞业务整体的高性能是基于Redis+MySQL架构。MySQL做数据存储和查询支持,Redis撑起业务的高性能响应。在1.0版本中,服务架构还是单体PHP服务...
- 下一篇
解决方案|电力行业应如何应对数字化转型危机
背景与挑战 随着电网公司数字化转型工作的推进和云平台、大数据、物联网、移动化、智能化等新技术的应用,推进高效一体化网络排障定位与深入推进人工智能及大数据技术等在电网信息系统运维中的应用,以及运用前沿科技技术,提高生产管理效益,提升数字电网建设过程中数据的价值已成为电网公司数字化转型工作的必然要求。 与此同时,伴随着电力行业数字化转型的不断发展,相关企业业务系统的不断更新与设备数量的大幅增加,由此引发了电力行业以下痛点: 监控层面:缺乏非侵入式的业务数据监控手段; 工作流程层面:缺乏统一的IT服务入口和服务管理流程; 人员层面:业务体系复杂,不同业务部门各自为政; 故障处理层面:问题发生后被动处理,且故障分析定位困难。 基于以上背景及痛点,如何在不植入探针或 Agent 的情况下监控业务链路运行情况,业务管理人员如何统计分析关键业务指标数据,运维人员如何准确定位故障、排查故障对电力行业相关企业来说均是极大的挑战。 场景需求分析 基于上述背景及挑战分析,电力行业具体包含以下运维场景需求: 非侵入式监控:通过非侵入式手段或工具实现对业务拓扑和业务指标数据的监控; 运维数据分析:统一收集、处理...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- CentOS8编译安装MySQL8.0.19
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Red5直播服务器,属于Java语言的直播服务器
- Windows10,CentOS7,CentOS8安装Nodejs环境