Databend 产品月报（2025年7月）-低调大师

Databend 产品月报（2025年7月）

2025-08-05 230

亲爱的 Databend 用户朋友们，大家好！🚀

这个七月，我们专注于优化一个核心目标：JSON 查询性能。最令人兴奋的是，我们对 Virtual Columns 功能进行了全面升级，效果显著——JSON 查询速度提升 3 倍，同时数据扫描量减少 26 倍！

本月成果速览

新增 25 + 实用功能
修复 25 + 影响体验的 bug
完成 20 + 项性能优化
其他改进 35 + 项

不过，最让人兴奋的，还是 JSON 性能的突破性提升。

重点功能一览

💎 核心升级

✓ Virtual Columns 性能飞跃：JSON 查询速度提升 3 倍，数据扫描量减少 26 倍
✓ 增强的 RBAC 权限管理：支持 connection 和 sequence 对象
✓ Shuffle 排序优化：大幅提高大规模有序数据集的性能
✓ 流式处理改进：Virtual Columns 支持流式数据
✓ 工作负载管理：新增基于内存百分比的资源配额

🛠 开发更顺手

✨ 40+ JSON 函数：全面覆盖 JSON 操作需求
✨ 多语法支持：兼容 Snowflake 和 PostgreSQL 语法
✨ 增强的 UDF：新增 IMMUTABLE 支持，性能更优
✨ 调试工具升级：metactl 工具更强大

⚡ 性能再突破

• 元服务优化：毫秒级精度，架构更优
• 查询优化：包括 grouping sets 重写等改进
• 内存管理：基于百分比的配额机制

🐛 稳定性提升

修复 25 + 个 bug：涵盖 JSON 处理、decimal 运算、查询执行等
改进错误处理：覆盖边缘情况和并发操作
提升事务可靠性：临时表和审计日志更稳定

深度解析：Virtual Columns 技术

🚀 Virtual Columns：自动化的 JSON 索引

我们对现有的 Virtual Columns 功能进行了全面优化，专为 JSON 工作负载量身打造。你可以把它看作是自动化的 JSON 索引——无需任何手动干预。

Virtual Columns 能够自动分析 JSON 数据结构，发现常用访问路径，并为这些路径生成独立的列索引。具体来说，当加载 JSON 数据时，系统会自动执行以下操作：

分析 JSON 文档的访问模式
为常用路径创建优化索引
将查询路由到这些快速索引，而不是每次都通过 jsonb 函数查询

示例 JSON：

{
  "customer_id": 123,
  "order": {
    "items": [{"name": "Shoes", "price": 59.99}]
  },
  "user": {"name": "Alice", "email": "alice@example.com"}
}

自动创建的索引：

customer_id → 整数索引
order.items[0].price → 数值索引
user.name → 字符串索引

无需配置，无需维护，直接享受更快的查询速度。

📊 真实数据对比

以下是我们的测试结果：

优化前（传统 JSON 解析）：

SELECT data['account_balance'], data['address']['city'] 
FROM user_logs;
-- 耗时 3.76 秒，处理 11.90 GB 数据

优化后（自动 Virtual Columns 索引）：

-- 完全相同的查询
SELECT data['account_balance'], data['address']['city'] 
FROM user_logs;
-- 耗时 1.32 秒，处理 461 MB 数据

查询速度提升 3 倍，数据扫描量减少 26 倍，无需修改任何代码！

🔧 兼容多种 JSON 语法

我们支持你已经熟悉的多种 JSON 查询语法：

Snowflake 风格：

SELECT data['user']['name'] FROM customers;       -- 方括号
SELECT data:user:name FROM customers;             -- 冒号
SELECT data['user'].profile.name FROM customers;  -- 混合语法

PostgreSQL 风格：

SELECT data-&gt;'user'-&gt;'name' FROM customers;       -- 箭头

无论使用哪种语法，都能享受自动索引带来的性能提升。

未来展望：统一架构，持续进化

七月的 JSON 优化只是我们更大蓝图的一部分。我们正在构建一个统一的架构，以驾驭所有类型的数据：

多模态数据处理能力

✅ 结构化数据：世界一流的列式存储性能（已完成）
✅ 半结构化数据：自动 Virtual Columns 索引（七月里程碑）
🚀 非结构化数据：向量计算和存储，与谓词下推（八月预览）

🔮 八月预览：非结构化数据存储与计算

如果说七月是关于半结构化 JSON 的自动索引，那么八月将聚焦于非结构化数据。我们将推出全面的向量存储、计算和查询加速能力：

八月亮点：

向量化存储：原生 vector 数据类型，优化的列式存储
HNSW 索引：加速相似性搜索，毫秒级查询响应
跨模态 SQL 联结：在单个查询中处理结构化、半结构化和非结构化数据

想象一下这样的查询：

-- 使用矢量嵌入查找相似产品
-- 同时分析其销售业绩（结构化数据）
-- 并提取 JSON 评论中的情感分析结果
-- 所有操作都在一个 SQL 查询中完成

SELECT p.product_name, 
       sales.total_revenue,
       reviews.data['sentiment']['score'] as sentiment,
       COSINE_SIMILARITY(p.embedding, :search_vector) as similarity
FROM products p
JOIN sales_data sales ON p.id = sales.product_id  -- 结构化数据
JOIN product_reviews reviews ON p.id = reviews.product_id  -- 半结构化 JSON
WHERE COSINE_SIMILARITY(p.embedding, :search_vector) &gt; 0.8  -- 非结构化
  AND reviews.data['sentiment']['score'] &gt; 0.7
ORDER BY similarity DESC, total_revenue DESC;

为 AI 时代构建真正统一的数据平台 —— 结构化分析、JSON 查询和非结构化数据搜索无缝协作。无需数据迁移，无需多个系统，只需一个 SQL 查询即可处理所有数据类型。

开源地址：https://github.com/databendlabs/databend。

感谢一路相伴！我们下期再见~ ✨

关于 Databend

Databend 是一款开源、弹性、低成本，基于对象存储也可以做实时分析的新式湖仓。期待您的关注，一起探索云原生数仓解决方案，打造新一代开源 Data Cloud。

👨‍💻‍ Databend Cloud：databend.cn

📖 Databend 文档：docs.databend.cn

💻 Wechat：Databend

✨ GitHub：github.com/databendlab…

微信关注我们

原文链接：https://my.oschina.net/u/5489811/blog/18687093

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

重大技术转向：LinkedIn 抛弃自家创造的 Kafka ，又重新造了个 Pulsar 的轮子？

导读在消息流领域，一场技术演进正在悄然发生：LinkedIn，作为 Kafka 的创造者和消息队列技术革命的引领者，在今天，几乎完全放弃 Kafka，转而构建一个新的轮子：Northguard。这一转变标志着 LinkedIn 技术战略的重要调整。值得注意的是，LinkedIn 打造的这个新系统在架构理念上与 Apache Pulsar 展现出令人惊讶的相似性。存储计算分离、多层数据模型、存储条带化等 Northguard 的核心特性，与 Pulsar 早已实现的设计理念高度重合。这着实令人又惊又喜：惊讶的是 LinkedIn 在经历了 Kafka 的挑战后，重新设计的系统竟与 Apache Pulsar 的核心架构理念如此相似；欣喜的是这再次证明了 Pulsar 的设计方向是正确的、极具前瞻性的。让我们一起深入了解这场技术转向背后的故事，看看LinkedIn 是如何从 Kafka 的创造者变成了与 Pulsar 架构趋同的新系统开发者，以及为什么这一切对正在选择消息系统的你至关重要。 Northguard ：新一代可扩展 log 存储系统数据是 LinkedIn 数千种服...

2025-08-05

322

2025 年 7 月《大模型 SQL 能力排行榜》发布一、本月导览与核心看点 2025 年 7 月，AI 大模型在代码生成与理解领域，特别是数据库 SQL 能力上的竞争日趋白热化。本期 SCALE 评测我们迎来了备受瞩目的 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评，同时 Gemini 2.5 系列也正式迈入稳定版。更重要的是，我们针对数据库现代化迁移的真实痛点，对评测基准进行了重要升级，旨在更深度地考验模型在复杂、真实场景下的 SQL 处理能力。本期核心看点：新王登基还是实力搅局？新晋选手 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评，它在 SQL 优化、方言转换与理解三大维度的综合表现如何？能否撼动现有第一梯队的格局？方言转换测评基准升级我们首次引入大 SQL 转换与国产数据库转换两大评测指标，全面考验模型在处理超长、复杂逻辑及存储过程、函数等高级数据库对象时的能力。正式版实力验证 Gemini 2.5 Pro 与 Gemini 2.5 Flash 迎来正式版，相较于预览版，其性能与稳定性...

2025-08-05

362

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。