一文了解袋鼠云在实时数据湖上的探索与实践
近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时数据湖上的探索与实践》主题分享,帮助大家能了解到什么是实时数据湖、如何进行数据湖选型及数据平台建设数据湖的经验。
如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据处理能力,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战。
因此,袋鼠云基于自研的一站式大数据基础软件——数栈提出相应的实时数据湖解决方案,能够兼容Iceberg、Hudi等数据湖平台。实时数据湖提供了多样化的分析能力,而不限于批处理、流处理、交互式查询和机器学习;提供了ACID事物能力,可以更好的保障数据质量;提供了完善的数据管理能力,包括数据格式、数据schema等;此外,实时数据湖还提供了存储介质可扩展的能力,支持HDFS、对象存储等。从而大大节省了数据存储成本、提升了开发效率,能够更快更好地挖掘数据价值。
该方案特点在于CDC数据实时入湖,能够保障技术自主可控、全增量一体化、分钟级时延、链路短、对业务稳定性无影响。
• 实时性高:CDC数据对实时性要求高,数据新鲜度越高,往往业务价值越高
• 历史数据量大:数据库的历史数据规模大
• 强一致性:数据处理必须要保证有序性而且结果需要一致性
• Schema动态演进:数据库对应的Schema会随着业务不断变更
在实时入湖落地过程中,研发团队也遇到了诸如小文件影响读写效率;客户群体使用的Flink版本大多还停留在1.12;因此需Hudi适配Flink1.12;存在多套Hadoop集群的场景下存在跨集群的需求等问题,最终都一一克服,提供了完美的解决方案。
在实时数据湖中包含实时ETL、离线ETL、OLAP三类任务,这三类任务在从ODS层到ADS层加工的过程中,聚合操作越来越多,IO越来越密集,多个任务SQL中具有相同逻辑的SQL片段。为此,技术团队探索出了物化视图的方案,完成平台化数据湖物化视图管理,Spark、Trino、Flink支持基于数据湖表格式管理物化视图。
在实时数据湖中基于数据湖构建的物化视图可实现流、批和OLAP任务之间共享,从而进一步降低实时数据湖中数据在整条链路中的延时,从而节省计算成本。
未来,实时数据湖方案还将持续优化,不断增加平台湖表管理的易用性;引入Paimon,让数栈支持对接Paimon、增加基于Paimon的湖仓一体建设;深入并增强内核,提升入湖的的性能;数据湖提供数据共享、支持多引擎,探索数据湖的安全管理方案。
获取完整PPT:https://www.dtstack.com/resources/1051?src=szsm
想了解更多详情,可点击观看视频讲解:https://www.bilibili.com/video/BV1Yu411w7uc/?spm_id_from=333.999.0.0&vd
《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm 想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szkyzg
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Ubuntu 23.10 安装工具恢复支持 ZFS 文件系统
根据科技媒体 Phoronix 的报道,在 Ubuntu 23.10 daily 最新版的桌面安装程序高级磁盘选项中,恢复了支持 ZFS 文件系统的选项(实验性阶段)。 按照 Ubuntu 桌面工程总监 Tim Holmes-Mitra 三周前发表的issue,Ubuntu 23.10 添加了 ZFS 支持(在 subiquity 和桌面安装程序中),但不支持 ZFS 加密。 四年前发布的 Ubuntu 19.10 桌面版,其安装程序 Ubiquity 添加了对 OpenZFS 的支持,可基于 ZFS 文件系统进行根文件系统的安装。 不过 Ubuntu 开发商 Canonical 前两年开始用 Flutter 为 Ubuntu 开发全新的桌面安装程序,并在今年 1 月份开放试用,新的图形安装程序基本上与以前的 Ubiquity 解决方案一样,但用户却发现没有找到对 OpenZFS 的支持,即便使用了最新的每日构建版本。 在 Ubuntu 23.04 的手动分区区域中,唯一提供的根文件系统选项是 EXT4、XFS 或 Btrfs。 所以 Ubuntu 23.10 安装工具现在恢复支持 Z...
- 下一篇
从好玩到好用:程序员用AI提效的那些事儿 | 京东云技术团队
本片内容是【AI思维空间】ChatGPT纵横编程世界,点亮智慧火花的续作,主要记录组内开发小伙伴儿们在开发过程中的实际应用案例,记录典型案例,尽量不要和其他人重复,以解决开发过程中的实际问题为主,设计、方案、编码、测试、集成、部署等等; 目的:贡献最佳实践,分享心得,共同成长! Prompt提问万能公式 案例1 基于ChatGPT进行资源排期 1、首先进行拆分,分为周一到周五和周六周日 2、引导chatGPT进行排班 案例2 让chatGpt帮忙看下正则表达式的含义 在看代码的过程中,发现有个地方使用了正则表达式进行规则匹配,但是没有注释标明规则含义,所以使用chatGpt帮忙看下规则含义。 chatGpt不仅返回的了匹配的规则含义,还详细介绍了每个字符具体含义,very nice。 案例3 基于chatGpt写分段写入csv文件的程序 给chatgpt提要求,要求10000行数据放在一个csv文件中,并将文件名称进行编号处理。 变更条件,事先不知道总行数有多少条,让chatGpt重新写一段程序实现。 案例4:基于ChatGPT辅助开发 告诉ChatGPT,我想开发一个Ja...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2配置默认Tomcat设置,开启更多高级功能