完整的数仓能力,字节云原生开源数仓 ByConity 1.0 版本发布!
文章来源|ByConity 开源社区
2024年8月,ByConity 1.0 正式发布,翻开了 ByConity 新的一页。1.0 版本有哪些不同,以及 1.x 版本会重点迭代哪些能力,下面为大家一一解读。
完整的数据仓库能力
从 ByConity 开源之初,我们一直将产品定位为开源云原生数据仓库。区别于传统 OLAP 产品,ByConity 采用存算分离的云原生架构,通过这种架构获得了弹性和降低资源浪费的优势,但与此同时也在一定程度上提高了产品的复杂度。定位为云原生数据仓库,是希望能够承担更多类型、更复杂的分析任务负载,无论是在线的实时分析还是离线数据的清洗/加工任务都能够胜任。更全面的能力能够帮助用户降低数据分析平台的整体复杂度。
传统的 OLAP 产品通过数据索引、列式存储、向量化执行等技术,注重对实时分析或者 Ad-hoc 分析的快速反应,满足低时延的要求。在数据加载进 OLAP 产品之前,往往需要经过复杂的数据清洗和转换过程,也就是大家熟知的 ETL 任务。在传统的数据分析架构中,这部分工作是由 Hive、Spark、Flink 等产品来完成的。
在 ByConity 1.x版本中,增加了对 BSP 模式的支持,减少数据加工和数据分析之间多系统耦合带来的运维负担,使ByConity 能够一站式完成数据接入、加工和分析。
1.0 版本中,在 BSP 模式下(settings bsp_mode = 1 打开 bsp 模式)增加了对 TableScan 算子并行度扩展的支持:一、通过设置 distributed_max_parallel_size,可以将 TableScan 的并行度进行扩展,实现资源平铺的功能,在资源有限的情况下实现对大表的处理;二、增加了对 task 重试的支持:通过设置 bsp_max_retry_num(task的最大重试次数,默认值为5),可以在作业的中间 task 发生失败时,从失败的 task 开始重试,而不是从头开始重试,进而大大减少 failover 对执行时长的影响。
后续的 1.x 版本中,我们还将推出基于资源感知的 BSP 模式,可以根据集群资源使用情况有序调度并发 ELT 任务,从而减少资源的挤占,避免频繁失败。
湖仓一体
在 ByConity 1.0 版本中的一个重要能力升级就是提升了湖仓一体的能力。ByConity 可以直接分析数据湖中的数据,而无需做数据搬迁,从而让用户可以更灵活的规划其数据分析架构。
Hive 外表查询性能在 1.0 版本中得到了非常大的提升。这主要得益于以下几点:
1、实现了外表的 Native Reader(Parquet/Orc),Native Reader 具有以下特点:
2、增加中间结果缓存。
3、结合 ByConity 查询优化器的统计信息自动收集,将 Filter 的有效下推,降低 IO 开销(1.x 版本)。
通过以上能力大大提升了 Hive 外表的查询性能,在 TPC-DS 测试中性能达到 Trino 的4倍。
除 Hive 外表外,在 1.0 版本中我们还支持了 Hudi 和 GLUE 的外表查询能力。在后续的 1.x 版本中,我们还将支持 Iceberg 和 Paimon 的外表能力。
MySQL 语义兼容
在 ByConity 0.x 版本中,主要支持 SQL 标准是 ClickHouse SQL 和 Ansi SQL。除 ClickHouse 生态外,MySQL 同样是当前主流的 OLAP 产品生态。过去一年中很多用户反馈从 MySQL 生态产品迁移到 ByConity 过程中有比较复杂的业务改写,以及部分工具不兼容。
在 1.0 版本中,ByConity 已经完成了 90% 以上的语法、函数、数据类型、DQL、DML、DDL 的兼容。此外,如MySQL Workbench、DBeaver、Navicat 等 IDE 工具,Tableau、QuickBI、FineBI 等主流 BI 工具的兼容性也在当前版本中完成。
在 1.x 版本中,我们希望和社区的贡献者们一起,在存储介质、数据导入、IDE、BI、数据治理工具等方面全面提升 ByConity 广泛的生态工具兼容性。
其他特性
1、默认开启优化器,支持开优化器简单查询走 local 模式,优化了开启优化器后简单查询性能下降的问题。
2、优化 Unique 表的 TableWrite 重试能力,提升 Unique 表可用性。
3、新增 bucket join 相关的能力。
4、提升 map 函数性能。
5、优化 disk cache 加载策略,支持按比例配置。
6、string 数据类型转化为 map,支持 nullable string。
7、支持导出数据导文件目录,支持 Worker 导出数据。
8、支持表级别的快照能力。
9、(Preview)增强高并发点查性能。
展望
未来,我们还将持续为提升分析性能和打造全面的数仓能力而努力。除此之外,我们还将向一体化分析引擎的方向进行探索,继续打磨倒排索引的能力,以及向向量检索和时空分析等场景进行探索。
ByConity 1.0 完整 Changelog:
https://github.com/ByConity/ByConity/releases/tag/1.0.0
关于 ByConity
ByConity 是字节跳动开源的云原生数据仓库,在满足数仓用户对资源弹性扩缩容,读写分离,资源隔离,数据强一致性等多种需求的同时,提供优异的查询,写入性能。
GitHub |https://github.com/ByConity/ByConity
添加小助手加入 ByConity 社区交流群

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Redox OS 0.9.0 版本发布:开源操作系统迎来重大更新
Redox OS团队于2024年9月9日发布了0.9.0版本,这是自上次更新以来的一次重大升级。该版本引入了大量新特性、改进、漏洞修复和系统清理,显著提升了操作系统的性能和稳定性。 本次更新的亮点包括进程和线程生命周期及信号处理机制的改进,性能和稳定性的显著提升,引入了来自COSMIC桌面的文件管理器、编辑器和终端程序,以及对Linux/BSD程序移植性的大幅改进。内核、驱动程序和PCIe支持也经过了广泛的优化和调试。 在系统底层,Redox OS实现了更快的系统调用和上下文切换,改进了虚拟内存和物理内存的管理,并引入了更快速的p2buddy内存分配器。文件系统性能也得到提升,同时在自托管方面取得了进展。用户空间ABI的改进,使系统更接近长期稳定ABI的目标。为提升虚拟机中的性能,新版本添加了VirtIO驱动程序和虚拟化TSC支持。 在兼容性方面,Redox OS采用了Unix风格的路径格式,取代了之前的URI格式,大大提高了与POSIX/Linux库和程序的兼容性。C语言库Relibc几乎全部由Rust编写,功能也更加完善。系统还改进了引导加载程序,增强了硬件兼容性,并在ARM64(...
- 下一篇
当《黑神话:悟空》遇上 openKylin,国产力量的极致碰撞!
了解更多银河麒麟操作系统全新产品,请点击访问 麒麟软件产品专区:https://product.kylinos.cn 开发者专区:https://developer.kylinos.cn 文档中心:https://documentkylinos.cn 万众瞩目的国产3A游戏巨作《黑神话:悟空》终于上线啦!!! 在正式发售后不到24小时,Steam在线玩家峰值突破222万,在Steam所有游戏在线玩家历史峰值中排名第二。第一拨玩家纷纷晒出好评,称这款现象级产品正式开启国产3A游戏元年。 那么,当《黑神话:悟空》遇上openKylin,会碰撞出怎样的火花呢? 想必无数玩家已经与小K一样跃跃欲试了,话不多说,安排! 下面就跟着小K一起投身于这一探索之旅吧! 经测试运行,我们可以看到,《黑神话:悟空》可在openKylin 2.0上实现完美兼容与流畅运行,让每一位热爱西游文化的社区玩家,都能无碍地享受这场视觉与操作的双重盛宴。 性能测试 游戏配置 操作系统:openKylin 2.0 内核:Linux 6.6.0-1-generic 处理器:11th Gen Intel(R) Core(...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6