Databend 开源周报第 126 期
Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。
What's On In Databend
探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。
全新 Filter 执行框架
在全新的 Filter 执行框架中,Databend 引入了一个开创性的概念 —— “不可变索引”。
🚀 不可变索引使我们能够在遇到 AND 和 OR 操作时避免生成临时选择缓冲区。这不仅减少了内存碎片化,还消除了从临时选择到最终选择的循环复制。
根据测试,此优化可以将原本需要 14.5s 的查询优化至 9.7s 。
如果您想了解更多信息,欢迎联系 Databend 团队,或查看下面列出的资源。
Code Corner
一起来探索 Databend 和周边生态中的代码片段或项目。
优化查询性能
Databend 通过提供聚合索引、聚类键和虚拟列,使得用户能够根据特定的查询场景来优化查询性能。
- 聚合索引 可以对数据进行预聚合,从而加快聚合查询操作,如求和、平均值、最大值和最小值等。特别适用于需要频繁进行聚合计算的场景。
- 聚类键 可以指导 Databend 如何在存储层面组织数据。使得具有相似键值的数据行物理上存储在一起,从而在查询时减少读取次数,加快查询速度。
- 虚拟列 可以提取 Variant 数据中的嵌套字段并将该数据存储在单独的存储文件中。对于优化复杂计算和条件查询非常有用,减少了运行时的计算负担。
通过合理应用这些工具,Databend 能够显著提高数据检索的速度和效率,为用户提供快速、灵活的查询性能优化选项。
Highlights
以下是一些值得注意的事件,也许您可以找到感兴趣的内容。
- 支持将 Top-N 排序外溢。
- 支持在后台任务定义时使用条件语句构建有向无环图。
- 新增 Binary 数据类型。
- 新增 stream_status HTTP API ,用于检查流的状态。
- 导入 Parquet 过程中可以使用
MISSING_FIELD_AS
定义默认行为。 - 阅读文档 Docs | Continuous Data Pipelines 了解如何利用 Stream 和 Pipeline 进行持续数据导入。
What's Up Next
我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。
Databend 2024 年研发路线讨论
目前,Databend 服务的最大 单表 包含数十万个数据段、几千万个数据块和 数万亿条 记录。这些数据涵盖了 7PB 的原始数据和超过 300TB 的索引数据。
2024 年的口号是:Compute Where Data Lives: Swift, Smart, Seamless 。欢迎加入我们,一起探索 Databend 的持续研发之旅和未来计划。参与讨论并贡献您的想法!
任务 | 状态 | 评论 |
---|---|---|
并发性和调度器的增强 | 计划中 | 旨在实现更快、更高效的任务处理并改善系统响应能力。 |
GEOMETRY 数据类型 | 计划中 | |
TPC-DS 性能 | 进行中 | 持续优化以获得更好的性能基准。 |
多语句事务 | 未指定 | |
存储过程(Python) | 未指定 | 添加对 Python 的支持,以便与 SQL 协同进行多样化的数据分析。 |
统一存储、数据仓库和计算 | 未指定 | 为 AI 和云计算提供一体化数据平台,调度 CPU & GPU 资源。 |
Issue #14167 | Databend Roadmap for 2024 (Discussion)
如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review 。或者,你可以点击 https://link.databend.rs/i-m-feeling-lucky 来挑选一个随机问题,祝好运!
Changelog
前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。
地址:https://github.com/datafuselabs/databend/releases
Contributors
非常感谢贡献者们在本周的卓越工作。
Connect With Us
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Guava Cache 异步刷新技巧,你值得拥有!
Guava Cache是一款非常优秀的本地缓存框架,提供简洁易用的 API 供开发者使用。 这篇文章,我们聊聊如何使用 Guava Cache 异步刷新技巧带飞系统性能 。 1 基本用法 首先,在 Java 应用中添加 maven 依赖: <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>31.0.1-jre</version> </dependency> 然后编写测试用例: LoadingCache 是本地缓存工具,支持配置加载函数,定时失效等功能。 例子中配置了基于容量进行回收策略,缓存最大容量设置为 100,配置了定时失效和刷新函数。 定时失效 配置 expireAfterWrite 后,缓存项在被创建或最后一次更新后的指定时间内会过期。 刷新函数 配置 refreshAfterWrite 设置刷新时间,当缓存项过期的同时可以重新加载新值 。 我们模拟过期执行...
- 下一篇
数据损毁!250 亿美金的 Pinterest,在数据库选型上的翻车经历
原文链接 Pinterest 是一个以图片为主的社交网络,用户可以将图片保存或 "钉 / pin" 在自己的图板上。Pinterest 在 2019 年上市,目前市值 250 亿美金。本文内容主要根据 2012 年 Scaling Pinterest 的分享。 2012 年 1 月,Pinterest 的月独立用户数量达到 1170 万,而当时只有 6 名工程师。 Pinterest 于 2010 年 3 月推出,是当时月活用户突破 1000 万最快的公司。 扩展 Pinterest 的经验教训 **使用已知的成熟技术。**Pinterest 当时涉足较新的技术,导致了数据损坏等问题。 保持简单。(反复出现的主题!) **不要太有创意。**团队采用的架构可以增加更多相同的节点来扩大规模。 限制选项。 **数据库分片 > 集群。**这减少了跨节点的数据传输,是件好事。 **享受乐趣!**新工程师能够在第一周内贡献代码。 2010 年 3 月:Closed beta 发布,1 名工程师 Pinterest 于 2010 年 3 月推出,当时只有一个小型 MySQL 数据库、一个小型 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- Linux系统CentOS6、CentOS7手动修改IP地址
- 2048小游戏-低调大师作品
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案