Databend 产品月报(2025年7月)
亲爱的 Databend 用户朋友们,大家好!🚀
这个七月,我们专注于优化一个核心目标:JSON 查询性能。最令人兴奋的是,我们对 Virtual Columns 功能进行了全面升级,效果显著——JSON 查询速度提升 3 倍,同时数据扫描量减少 26 倍!
本月成果速览
- 新增 25 + 实用功能
- 修复 25 + 影响体验的 bug
- 完成 20 + 项性能优化
- 其他改进 35 + 项
不过,最让人兴奋的,还是 JSON 性能的突破性提升。
重点功能一览
💎 核心升级
✓ Virtual Columns 性能飞跃:JSON 查询速度提升 3 倍,数据扫描量减少 26 倍
✓ 增强的 RBAC 权限管理:支持 connection 和 sequence 对象
✓ Shuffle 排序优化:大幅提高大规模有序数据集的性能
✓ 流式处理改进:Virtual Columns 支持流式数据
✓ 工作负载管理:新增基于内存百分比的资源配额
🛠 开发更顺手
✨ 40+ JSON 函数:全面覆盖 JSON 操作需求
✨ 多语法支持:兼容 Snowflake 和 PostgreSQL 语法
✨ 增强的 UDF:新增 IMMUTABLE 支持,性能更优
✨ 调试工具升级:metactl 工具更强大
⚡ 性能再突破
• 元服务优化:毫秒级精度,架构更优
• 查询优化:包括 grouping sets 重写等改进
• 内存管理:基于百分比的配额机制
🐛 稳定性提升
- 修复 25 + 个 bug:涵盖 JSON 处理、decimal 运算、查询执行等
- 改进错误处理:覆盖边缘情况和并发操作
- 提升事务可靠性:临时表和审计日志更稳定
深度解析:Virtual Columns 技术
🚀 Virtual Columns:自动化的 JSON 索引
我们对现有的 Virtual Columns 功能进行了全面优化,专为 JSON 工作负载量身打造。你可以把它看作是自动化的 JSON 索引——无需任何手动干预。
Virtual Columns 能够自动分析 JSON 数据结构,发现常用访问路径,并为这些路径生成独立的列索引。具体来说,当加载 JSON 数据时,系统会自动执行以下操作:
- 分析 JSON 文档的访问模式
- 为常用路径创建优化索引
- 将查询路由到这些快速索引,而不是每次都通过 jsonb 函数查询
示例 JSON:
{
"customer_id": 123,
"order": {
"items": [{"name": "Shoes", "price": 59.99}]
},
"user": {"name": "Alice", "email": "alice@example.com"}
}
自动创建的索引:
customer_id
→ 整数索引order.items[0].price
→ 数值索引user.name
→ 字符串索引
无需配置,无需维护,直接享受更快的查询速度。
📊 真实数据对比
以下是我们的测试结果:
优化前(传统 JSON 解析):
SELECT data['account_balance'], data['address']['city']
FROM user_logs;
-- 耗时 3.76 秒,处理 11.90 GB 数据
优化后(自动 Virtual Columns 索引):
-- 完全相同的查询
SELECT data['account_balance'], data['address']['city']
FROM user_logs;
-- 耗时 1.32 秒,处理 461 MB 数据
查询速度提升 3 倍,数据扫描量减少 26 倍,无需修改任何代码!
🔧 兼容多种 JSON 语法
我们支持你已经熟悉的多种 JSON 查询语法:
Snowflake 风格:
SELECT data['user']['name'] FROM customers; -- 方括号
SELECT data:user:name FROM customers; -- 冒号
SELECT data['user'].profile.name FROM customers; -- 混合语法
PostgreSQL 风格:
SELECT data->'user'->'name' FROM customers; -- 箭头
无论使用哪种语法,都能享受自动索引带来的性能提升。
未来展望:统一架构,持续进化
七月的 JSON 优化只是我们更大蓝图的一部分。我们正在构建一个统一的架构,以驾驭所有类型的数据:
多模态数据处理能力
- ✅ 结构化数据:世界一流的列式存储性能(已完成)
- ✅ 半结构化数据:自动 Virtual Columns 索引(七月里程碑)
- 🚀 非结构化数据:向量计算和存储,与谓词下推(八月预览)
🔮 八月预览:非结构化数据存储与计算
如果说七月是关于半结构化 JSON 的自动索引,那么八月将聚焦于非结构化数据。我们将推出全面的向量存储、计算和查询加速能力:
八月亮点:
- 向量化存储:原生 vector 数据类型,优化的列式存储
- HNSW 索引:加速相似性搜索,毫秒级查询响应
- 跨模态 SQL 联结:在单个查询中处理结构化、半结构化和非结构化数据
想象一下这样的查询:
-- 使用矢量嵌入查找相似产品
-- 同时分析其销售业绩(结构化数据)
-- 并提取 JSON 评论中的情感分析结果
-- 所有操作都在一个 SQL 查询中完成
SELECT p.product_name,
sales.total_revenue,
reviews.data['sentiment']['score'] as sentiment,
COSINE_SIMILARITY(p.embedding, :search_vector) as similarity
FROM products p
JOIN sales_data sales ON p.id = sales.product_id -- 结构化数据
JOIN product_reviews reviews ON p.id = reviews.product_id -- 半结构化 JSON
WHERE COSINE_SIMILARITY(p.embedding, :search_vector) > 0.8 -- 非结构化
AND reviews.data['sentiment']['score'] > 0.7
ORDER BY similarity DESC, total_revenue DESC;
为 AI 时代构建真正统一的数据平台 —— 结构化分析、JSON 查询和非结构化数据搜索无缝协作。无需数据迁移,无需多个系统,只需一个 SQL 查询即可处理所有数据类型。
开源地址:https://github.com/databendlabs/databend。
感谢一路相伴!我们下期再见~ ✨
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式湖仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
👨💻 Databend Cloud:databend.cn
📖 Databend 文档:docs.databend.cn
💻 Wechat:Databend
✨ GitHub:github.com/databendlab…

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
重大技术转向:LinkedIn 抛弃自家创造的 Kafka ,又重新造了个 Pulsar 的轮子?
导读 在消息流领域,一场技术演进正在悄然发生:LinkedIn,作为 Kafka 的创造者和消息队列技术革命的引领者,在今天,几乎完全放弃 Kafka,转而构建一个新的轮子:Northguard。这一转变标志着 LinkedIn 技术战略的重要调整。 值得注意的是,LinkedIn 打造的这个新系统在架构理念上与 Apache Pulsar 展现出令人惊讶的相似性。存储计算分离、多层数据模型、存储条带化等 Northguard 的核心特性,与 Pulsar 早已实现的设计理念高度重合。 这着实令人又惊又喜:惊讶的是 LinkedIn 在经历了 Kafka 的挑战后,重新设计的系统竟与 Apache Pulsar 的核心架构理念如此相似;欣喜的是这再次证明了 Pulsar 的设计方向是正确的、极具前瞻性的。 让我们一起深入了解这场技术转向背后的故事,看看LinkedIn 是如何从 Kafka 的创造者变成了与 Pulsar 架构趋同的新系统开发者,以及为什么这一切对正在选择消息系统的你至关重要。 Northguard :新一代可扩展 log 存储系统 数据是 LinkedIn 数千种服...
-
下一篇
2025 年 7 月《大模型 SQL 能力排行榜》发布
2025 年 7 月《大模型 SQL 能力排行榜》发布 一、本月导览与核心看点 2025 年 7 月,AI 大模型在代码生成与理解领域,特别是数据库 SQL 能力上的竞争日趋白热化。 本期 SCALE 评测我们迎来了备受瞩目的 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评,同时 Gemini 2.5 系列也正式迈入稳定版。更重要的是,我们针对数据库现代化迁移的真实痛点,对评测基准进行了重要升级,旨在更深度地考验模型在复杂、真实场景下的 SQL 处理能力。 本期核心看点: 新王登基还是实力搅局? 新晋选手 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评,它在 SQL 优化、方言转换与理解三大维度的综合表现如何?能否撼动现有第一梯队的格局? 方言转换测评基准升级 我们首次引入 大 SQL 转换 与 国产数据库转换 两大评测指标,全面考验模型在处理超长、复杂逻辑及存储过程、函数等高级数据库对象时的能力。 正式版实力验证 Gemini 2.5 Pro 与 Gemini 2.5 Flash 迎来正式版,相较于预览版,其性能与稳定性...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL数据库在高并发下的优化方案
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2配置默认Tomcat设置,开启更多高级功能