Databend 开源周报第 154 期
Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。
What's On In Databend
探索 Databend 本周新进展,遇到更贴近你心意的 Databend。
为窗口排名函数添加 [IGNORE | RESPECT NULLS] 选项
在窗口函数的使用中,处理 NULL 值是一个常见且重要的问题。为了提供更加灵活和精确的查询能力,Databend 正在为窗口排名函数 first_value、last_value 和 nth_value 添加 IGNORE NULLS 和 RESPECT NULLS 选项。这两个选项的具体功能如下:
使用 IGNORE NULLS 选项时,函数会跳过 NULL 值,仅考虑非 NULL 的数据。例如:first_value(col) IGNORE NULLS
会返回第一个非 NULL 的值。这种方式在数据集中存在大量 NULL 值的情况下非常有用,因为它能有效避免 NULL 值对结果的干扰。
使用 RESPECT NULLS 选项时,函数会将 NULL 值视为正常数据进行处理。例如:nth_value(col, n) RESPECT NULLS
会返回第 n 个值,无论它是否为 NULL。这种方式适用于需要保留 NULL 值信息的场景。
如果您想了解更多信息,欢迎联系 Databend 团队,或查看下面列出的资源。
Beyond the Code
一起来探索 Databend 社区和周边生态中的新鲜事。
从存储视角学 Data Lake
数据湖是复杂的系统,其规格、格式和引擎各异。然而,所有数据湖的基础元素是存储层。观察它们如何在这一层上组织元数据和数据,以及基于文件设计的优化策略,可以提供更清晰的洞察。从存储层的角度来看,我们可以更全面地理解数据。构建在数据湖上的所有引擎本质上都是实现细节。
这个来自 Databend 研发工程师 Xuanwo 的项目可以帮助大家从部署和分析各种数据湖项目的存储行为入手,深入了解不同项目的功能和设计。
Highlights
以下是一些值得注意的事件,也许您可以找到感兴趣的内容。
- 实现 LocalShuffle。
- 新增表函数
clustering_statistics
。 - 新增设置项
enable_strict_datetime_parser
。
What's Up Next
我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。
使用物化视图重构聚合索引
Databend 目前已经提供了聚合索引能力,允许用户通过预先计算和存储聚合结果来加速查询性能。聚合索引的引入极大地提升了数据处理的效率,尤其在大数据集的分析和查询场景中表现尤为显著。
我们计划根据论文 Optimizing queries using materialized views: A practical, scalable solution,使用物化视图重构聚合索引,提供更加实用和可扩展的解决方案。此改进将有助于提高查询效率,并为用户带来更好的数据处理体验。
Issue #16021 | Feature: Refactor aggregating index using materialized view
如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review。或者,你可以点击 https://link.databend.rs/i-m-feeling-lucky 来挑选一个随机问题,祝好运!
Changelog
前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。
地址:https://github.com/datafuselabs/databend/releases
Contributors
非常感谢贡献者们在本周的卓越工作。
Connect With Us
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
探索BPMN—工作流技术的理论与实践|得物技术
一、前言 19世纪70年代,流程管理思想萌芽阶段。 怎样提高工作效率? 泰勒:标准化个人操作流程 亨利·福特:规定标准时间定额 标准化、精简化、通用化、专业化。 20世纪70年代,工作流技术起源于办公自动化领域的研究。由于当时计算机尚未普及,网络技术水平还很低以及理论基础匮乏,这项新技术并未取得成功,许多公司采用纸张表单,手工传递的方式,一级一级审批签字,工作效率非常低下。 20世纪90年代,信息技术驱动流程自动化阶段。信息技术开始引入管理领域,对传统的业务进行自动化改造。 产品:Sabre订票系统,MRP(物料需求计划),MIS(管理信息系统),CIMS(计算机集成制造系统)。 21世纪初,BPM管理与治理结合。 BPR/BPI:以信息技术为核心重新设计业务流程,失败率高达50%-70%; BPM:以业务流程为主导的管理思想; BPM治理思想:对BPM实施的成功率以及ROI的高要求,强调BPM与企业战略相结合。 二、BPMN介绍 BPMN(Business Process Modeling Notation,业务流程建模符号)是一种用于描述业务流程的标准化建模语言。它通过图形符号及规...
- 下一篇
超越传统续写模式:AI编程距离智能研发终态还有多远?
在软件开发领域,大模型驱动的智能代码生成技术已成为研究热点,引起了广泛关注和探索。开源中国邀请到百度工程效能部前端研发经理杨经纬,从一款AI编程助手——文心快码(Baidu Comate)前端工程师的角度,分享了关于智能研发工具本身的研发历程和理念。 “在续写基础上,人机协同已经进入到了下一个阶段” 我目前负责工程效能部的前端团队。团队主要负责前端方向,也就是部门里面所有产品的前端展示部分,本身也包括文心快码 Baidu Comate(以下简称 Comate)的端、以及前端的建设等等。 作为离用户最近的研发角色,我们确实能够更明显的感知到在 AI 时代,工作方向的一些变化。比如之前会使用低代码的方式进行提效,在生成式 AI 出现之后,其实会更多的结合 AI,进行自然语言生成代码、或者图像转代码的探索。 随着大模型应用的迅猛发展,各行各业都在积极拥抱 AI。其中的智能代码助手方向属于跑在比较前面的梯队,落地非常迅速。目前在百度内部,借助 Comate 的支持,在百度内部已有约30%的代码由 AI 生成,可以看到提效效果是非常明显的,而且未来提效作用还会持续增长。 Comate 在集团内的...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库