Databend 开源周报第 134 期
Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。
What's On In Databend
探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。
支持多语句事务
Databend 现已支持提供基本的多语句事务支持。
多语句事务的用途包括:
- 在单个事务中对多个表执行 DML 变更。
- 根据中间计算分多个阶段对单个表执行变更。
BEGIN; INSERT INTO t_append_only VALUES(4), (5); INSERT INTO t_consume_append_only_1 SELECT a FROM s_append_only; INSERT INTO t_append_only VALUES(6), (7); COMMIT;
如果您想了解更多信息,欢迎联系 Databend 团队,或查看下面列出的资源。
Code Corner
一起来探索 Databend 和周边生态中的代码片段或项目。
crabml - 使用 Rust 重新实现 GGML
crabml 是一个正在进行中的实验性项目,相当于是使用 Rust 重新实现 GGML。可以在廉价硬件上进行高效的推理。
由 Databend 团队成员 flaneur2020 创建,目前已经支持推理 Q8_0 量化的 Llama 3B 模型。
Highlights
以下是一些值得注意的事件,也许您可以找到感兴趣的内容。
- SQLsmith 支持生成 binary 和 geometry 类型的数据。
- hash join 与新的 filter 框架集成。
EXPLAIN
支持详尽输出模式(verbose
),可以提供更多关系属性信息和统计。- 改进 analyze table ,支持查询 fuse 表的增量块。
What's Up Next
我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。
支持 PRQL 方言
PRQL 全称是 Pipelined Relational Query Language,读作 "Prequel"。PRQL 同样具备可读性和声明性特点;但与 SQL 不同的是,它支持变量和函数等抽象概念。
下面是一个 PRQL 示例:
from track_plays filter plays > 10_000 # Readable numbers filter (length | in 60..240) # Ranges with `..` filter recorded > @2008-01-01 # Simple date literals filter released - recorded < 180days # Nice interval literals sort {-length} # Concise order direction
PRQL 可以利用 prqlc
编译为可供 AST 解析的通用 SQL,Databend 计划利用这一点提供对 PRQL 的支持。
Issue #14811 | Feature: prql dialect support
如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review 。或者,你可以点击 https://link.databend.rs/i-m-feeling-lucky 来挑选一个随机问题,祝好运!
New Contributors
一起认识社区中的新伙伴,Databend 因你们而变得更加美好。
- @dracoooooo 实现了对
DESC[RIBE] [TABLE] <name>
语句的支持,#14736 。
Changelog
前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。
地址:https://github.com/datafuselabs/databend/releases
Contributors
非常感谢贡献者们在本周的卓越工作。
Connect With Us
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源代码生成模型 StarCoder 2 全新上线!
BigCode 正式推出 StarCoder2 —— 一系列新一代的开放源代码大语言模型 (LLMs)。这些模型全部基于一个全新、大规模且高品质的代码数据集 The Stack v2 进行训练。我们不仅公开了所有的模型和数据集,还包括了数据处理和训练代码的详细信息,详情请参阅 相关论文。 StarCoder2 是什么? StarCoder2 是一套面向代码的开放式大语言模型系列,提供 3 种规模的模型,分别包括 30 亿 (3B)、70 亿 (7B) 和 150 亿 (15B) 参数。特别地,StarCoder2-15B 模型经过了超过 4 万亿 token 和 600 多种编程语言的训练,基于 The Stack v2 数据集。所有模型均采用分组查询注意力机制 (Grouped Query Attention),具备 16,384 个 token 的上下文窗口和 4,096 个令牌的滑动窗口注意力,并通过“填充中间” (Fill-in-the-Middle) 技术进行训练。 StarCoder2 包含三种规模的模型:ServiceNow 训练的 30 亿参数模型、Hugging Fa...
- 下一篇
时序数据高基问题揭秘:根因分析与解决之道
What is High-Cardinality 基数(Cardinality) 在数学中定义是用来代表集合元素个数的标量,比如对于有限集合 A = {a, b, c} 的基数就是 3,对于无限集合也有一个基数概念,今天主要谈论计算机领域,就不在这里展开。 在数据库的上下文里面,基数并没有严格的定义,但大家对基数的共识也类似可借鉴数学中的定义:用来衡量数据列包含的不同数值的个数多少。比如说一个记录用户的数据表,通常有 UID, Name 和 Gender 这几个列,很显然,UID 的基数最高,因为每个用户都会被分配一个唯一的 ID, Name 也算高的,但由于会遇到重名的用户,就不如 UID 那么高,而 Gender 一列可能数值相对较少。所以在用户表这个例子里面,就可以称 UID 列属于高基,而 Gender 则属于低基。 如果再细分到时序数据库的领域,基数往往是特指时间线的个数,我们就以时序数据库在可观测领域的应用举例,一个典型场景是记录 API 服务的请求时间。举一个最简单的例子,针对不同 instance 的 API 服务各个接口的响应时间,就有两个 label: API Ro...
相关文章
文章评论
共有0条评论来说两句吧...