Databend 开源周报第 121 期
Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。
What's On In Databend
探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。
支持追加流
Databend 现在支持 CREATE STREAM
语法,为表创建对应的追加流。追加流仅跟踪插入操作,不会记录更新和删除操作。
对应的语法如下:
CREATE STREAM [IF NOT EXISTS] [<database>.]<stream> ON TABLE [<database>.]<table> [<stream_point>] [COMMENT = '<string_literal>']
下面是一个简单的示例:
databend> create table t(a int); Query OK, 0 rows affected (0.07 sec) databend> insert into t values(1); Query OK, 1 row affected (0.06 sec) databend> alter table t set options(change_tracking=true); Query OK, 0 rows affected (0.06 sec) databend> create stream s on table t; Query OK, 0 rows affected (0.04 sec) databend> insert into t values(2); Query OK, 1 row affected (0.07 sec) databend> select * from s; +------+ | a | +------+ | 2 | +------+ 1 row in set (0.07 sec) Read 2 rows, 59.00 B in 0.032 sec., 61.82 rows/sec., 1.78 KiB/sec.
如果您想了解更多信息,欢迎联系 Databend 团队,或查看下面列出的资源。
Code Corner
一起来探索 Databend 和周边生态中的代码片段或项目。
由 parquet2 切换至 parquet-rs
由于 parquet2 面临错误修复和长期维护匮乏的问题,Databend 现已将默认的 Parquet Reader 切换到 arrow-rs/parquet 。
这一变更自 v1.2.223-nightly
开始生效,使用 arrow-rs/parquet
有助于提高 Parquet 文件读写的稳定性。目前,Databend 的 Fuse 引擎仍然使用 parquet2 。
Highlights
以下是一些值得注意的事件,也许您可以找到感兴趣的内容。
- 新增
current_timestamp
时间函数。 - 新增
array_to_string
和array_flatten
数组函数。 - 新增
stream_status
表函数,改进fuse_encoding
表函数。 - 新增 UDF 授权管理支持。
What's Up Next
我们始终对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入活力。
利用表引擎支持 Iceberg 和 Delta 表
目前,Iceberg 表仅支持与 Iceberg 目录一起使用。如果能够将表与目录进行解耦,就可以尝试使用以下语法创建由 Iceberg 或 Delta 引擎支持的表:
create table <ident> from <location> engine=iceberg|delta [connection_name="my_connection", <other args>]
Issue #13787 | support iceberg and delta with table engine
如果你对这个主题感兴趣,可以尝试解决其中的部分问题或者参与讨论和 PR review 。或者,你可以点击 https://link.databend.rs/i-m-feeling-lucky 来挑选一个随机问题,祝好运!
Changelog
前往查看 Databend 每日构建的变更日志,以了解开发的最新动态。
地址:https://github.com/datafuselabs/databend/releases
Contributors
非常感谢贡献者们在本周的卓越工作。
Connect With Us
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
TS版LangChain实战:基于文档的增强检索(RAG) | 京东云技术团队
LangChain LangChain是一个以 LLM (大语言模型)模型为核心的开发框架,LangChain的主要特性: 可以连接多种数据源,比如网页链接、本地PDF文件、向量数据库等 允许语言模型与其环境交互 封装了Model I/O(输入/输出)、Retrieval(检索器)、Memory(记忆)、Agents(决策和调度)等核心组件 可以使用链的方式组装这些组件,以便最好地完成特定用例。 围绕以上设计原则,LangChain解决了现在开发人工智能应用的一些切实痛点。以 GPT 模型为例: 数据滞后,现在训练的数据是到 2021年9月。 token数量限制,如果让它对一个300页的pdf进行总结,直接使用则无能为力。 不能进行联网,获取不到最新的内容。 不能与其他数据源链接。 另外作为一个胶水层框架,极大地提高了开发效率,它的作用可以类比于jquery在前端开发中的角色,使得开发者可以更专注于创新和优化产品功能。 1、Model I/O LangChain提供了与任何语言模型交互的构建块,交互的输入输出主要包括:Prompts、Language models、Output par...
- 下一篇
UData+StarRocks在京东物流的实践 | 京东物流技术团队
1 背景 数据服务与数据分析场景是数据团队在数据应用上两个大的方向,行业内大家有可能会遇到下面的问题: 1.1 数据服务 烟囱式开发模式:每来一个需求开发一个数据服务,数据服务无法复用,难以平台化,技术上无法积累 服务维护难度大:当开发了大量数据服务后,后期维护是大问题,尤其是618、双11大促期间,在没有统一的监控、限流、灾备方案的情况下一个人维护上百个数据服务是一件很痛苦的事,也造成了很大的安全隐患 业务需求量大:数据开发的同学常常会被大量重复枯燥的数据服务开发束缚,大量的时间投入在业务数据服务开发中 1.2 数据分析 找数据难:用户难以找到自己想要,即便找到名称相近的指标或数据,由于指标口径不明确也不统一也无法直接使用 用数难:由于目前数据分布在各个系统中,用户无法用一个系统满足所有的数据需求。特别是一线运营人员要通过每个从各个系统导出大量Excel的方式做数据分析,费时费力,同时也造成数据安全隐患 查询慢:用传统的Olap引擎,用户跑SQL往往需要几分钟才出结果,大大降低了分析人员的效率。 查询引擎不统一:系统可能有多种查询引擎组成,每一种查询引擎都有自己的DSL,增大了用户的...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS关闭SELinux安全模块
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器