落地 ZeroETL 轻量化架构,ByteHouse 推出“四个一体化”策略
在数字化转型的浪潮中,数据仓库作为企业的核心数据资产,其重要性日益凸显。随着业务范围扩大,企业也会使用不同的数据仓库来管理、维护相关数据。研发人员需要花费大量时间和精力,从中导出数据,然后进行手动整理、转换格式,再导入到分析工具中完成数据分析。该过程不仅繁琐,还容易出错。
ZeroETL 则提供了一个全新的解决方案,让研发人员无需操作复杂的数据抽取、转换和加载(ETL)过程就能实现数据整合和分析。它能够自动从不同软件中获取数据,直接将数据整合到一起,以统一格式呈现,帮助使用者更快速、轻松地进行数据分析。
而火山引擎云原生数据仓库 ByteHouse 则通过“四个一体化”逐步实现 ZeroETL 轻量化数据架构,不仅让数仓更轻快,数据免开发,还能保障数据质量,实现智能运维
据火山引擎 ByteHouse 产品负责人介绍,“ByteHouse 是一款 OLAP(联机分析处理)产品,用人体比喻,相当于腰部,为力量汇聚之地。但如果缺少四肢的支撑,腰部产品很难独立发挥作用。由此,ByteHouse 提出‘四个一体化’的核心理念,旨在通过全面融合,实现数据的无缝流动和高效利用。”
ByteHouse“四个一体化”架构
首先,TP、AP 一体化。TP(联机事务处理)和 AP(联机分析处理)的一体化是 ByteHouse 的核心优势之一。通过这一技术,ByteHouse 能够实时捕获上游数据,实现数据的即时分析和消费。其中,CDC(变更数据捕获)技术能够将上游数据库的变更数据以秒级速度拉取到数据仓库中,为报表和仪表盘提供实时数据支持。此外,ByteHouse 还与主流的 CDC 产品实现了无缝对接,包括火山引擎数智平台 VeDI 旗下的 DataSail、开源的 DataX、Flink 等,进一步增强了数据的实时性和准确性。
其次,湖、仓一体化。在数据湖和数据仓库的融合方面,ByteHouse 支持对 Lake 中的数据以外表的方式进行读写,包括 ORC、Parquet、Hive、Iceberg、Paimon 和 Hudi 等开放格式。同时,为了加速性能,ByteHouse 在优化器和 Schema 动态感知层面做了增强,并为开放格式提供了原生读取器,确保在湖仓之间实现高性能的数据流动。
再次,AP、AI 一体化。ByteHouse 开发了 Vector search 高级引擎,其可插拔的特点让用户可以根据不同的应用需求开启不同的计算组。此外,ByteHouse 还在不断探索运用 AI 能力让数据仓库变得更加智能,包括查询优化、索引物化视图、cache、schema 等方面。
最后,仓、市一体化。对于上规模的公司而言,数据分析中台往往由多个集群构成,数据流动复杂。ByteHouse 通过 Remote 方式实现了不同集群之间的数据联邦,帮助用户免除数据搬迁的繁琐操作,不仅提高了数据流动的效率和准确性,还降低了运维成本。
通过“四个一体化”战略的实施,ByteHouse 实现了 Zero ETL 理念。Zero ETL 不止指一种工具,更是强调数据的轻量化、高效化和智能化的理念。基于该理念,ByteHouse 能帮助企业实现数据免搬迁、开发敏捷化、数据质量提升以及运维智能化。未来,随着技术的不断迭代和升级,ByteHouse 将继续为企业提供更加高效、智能和可靠的云原生数仓解决方案。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源日报 | 苹果质疑LLM无法进行逻辑推理;90后AI天才造卡车;Python 3.13性能测试;关于AI与芯片;谁该为IBM的没落负责?
欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.10.15 今日要闻 Python 3.12 vs Python 3.13 – 性能测试 测试的第一部分使用一台配备 AMD Ryzen 9 7900 处理器、DDR5 内存和 M.2 PCIe Gen4 NVMe 驱动器的台式电脑。 结果显示,Python 3.13 在以下测试中比 Python 3.12 有最佳性能结果:async_tree_eager_io_tg(快 1.61 倍),async_tree_eager_io(快 1.54 倍),async_tree_io_tg(快 1.54 倍)。然而,你可能会注意到一些测试的性能下降,特别是在coverage(慢 1.36 倍),create_gc_cycles(慢 1.13 倍),regex_v8(慢 1.13 倍)。 Layui 发布 2.9.18 稳定版本 Layui 是一套遵循原生态开发模式的 Web UI 组件库,易上手,可以更简单快速地构建网页界面。 智谱开源新一代文生图模型 CogView3-Plus 智谱宣布开源文生图模型 CogView...
- 下一篇
揭秘 FineVideo 数据集构建的背后的秘密
开放视频数据集稀缺,因此减缓了开源视频 AI 的发展。为此,我们构建了 FineVideo,这是一个包含 43,000 个视频的数据集,总时长为 3,400 小时,并带有丰富的描述、叙事细节、场景分割和问答对。 FineVideo 包含高度多样化的视频和元数据集合,使其成为训练模型理解视频内容、训练扩散模型从文本描述生成视频或使用其结构化数据作为输入训练计算机视觉模型的良好素材。 等等,你还没有看过 FineVideo 吗?通过 数据集探索页面 查看它。 关于这篇博客文章 在这篇博客文章中,我们分享了开发 FineVideo 的技术细节和代码: 从 YouTube-Commons 中的 190 万个视频开始,到最终获得 44,000 个带有详细标注的视频。 一个好的开始方式是查看我们旅程的不同步骤。这些步骤涉及内容过滤、标注和输出结构化。 FineVideo 视频过滤和标注管道 在接下来的部分中,我们将讨论每个步骤,并提供相关代码部分的参考。如果你更喜欢直接浏览代码,请查看我们在 Github 上的 FineVideo 仓库。 首先,让我们看看我们是如何获得初始的 YouTube 视频...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路