Databend 产品月报（2024年8月）-低调大师

Databend 产品月报（2024年8月）

2024-09-05 283

很高兴为您带来 Databend 2024 年 8 月的最新更新、新功能和改进！我们希望这些增强功能对您有所帮助，并期待您的反馈。

Kafka Connect Sink Connector 插件

我们推出了一种将 Kafka 连接到 Databend 的新方式：databend-kafka-connect，这是一个 Kafka Connect sink connector 插件。该插件支持 Append Only 和 Upsert 两种写入模式，并能根据数据的 schema 自动在 Databend 中创建目标表。了解更多详情，请查看文档。

想亲身体验如何将 Kafka 消息加载到 Databend，请探索以下教程：

使用 bend-ingest-kafka 从 Kafka 加载数据：https://docs.databend.cn/tutorials/load/kafka-bend-ingest-kafka
使用 databend-kafka-connect 从 Kafka 加载数据：https://docs.databend.cn/tutorials/load/kafka-databend-kafka-connect

全文模糊搜索

全文搜索函数 MATCH 和 QUERY 现在可以在语法中包括以下选项，以支持模糊搜索：

fuzziness: 允许在指定的 Levenshtein 距离内匹配关键字。
operator: 指定多个查询关键字如何组合。可以设置为 OR（默认）或 AND。OR 返回包含任何查询关键字的结果，而 AND 返回包含所有查询关键字的结果。
lenient: 控制在查询文本无效时是否报告错误。默认为 false。如果设置为 true，当查询文本无效时不会报告错误，结果集将为空。

以下是一些简单的例子：

使用模糊度 fuzziness=1 时，查询关键字 "box" 允许匹配像 "fox" 这样的单词，因为 "box" 和 "fox" 的 Levenshtein 距离为 1：

SELECT id, score(), content FROM t WHERE match(content, 'box', 'fuzziness=1');

使用 operator=AND 时，以下查询要求结果中同时包含 "action" 和 "works"：

SELECT id, score(), content FROM t WHERE query('content:action works', 'fuzziness=1;operator=AND');

由于 fuzziness=1，它还会匹配像 "Actions" 和 "words" 这样的单词，因此会返回 "Actions speak louder than words"。

FUSE_STATISTIC 新增直方图信息

FUSE_STATISTIC 函数现在包括一个新的统计特性：直方图。这个新功能提供了有关每列数据分布的详细信息：

bucket id: 桶的标识符。
min: 桶内的最小值。
max: 桶内的最大值。
ndv (number of distinct values) : 桶内唯一值的计数。
count: 桶内的总值数量。

以下是一个简单的例子：

SELECT * FROM FUSE_STATISTIC('default', 'sample');

┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ column_name │ distinct_count │                                                                                                                                                                                                histogram                                                                                                                                                                                               │
├─────────────┼────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤
│ name        │              6 │ [bucket id: 0, min: "Alice", max: "Alice", ndv: 1.0, count: 1.0], [bucket id: 1, min: "Bob", max: "Bob", ndv: 1.0, count: 1.0], [bucket id: 2, min: "Charlie", max: "Charlie", ndv: 1.0, count: 1.0], [bucket id: 3, min: "Diana", max: "Diana", ndv: 1.0, count: 1.0], [bucket id: 4, min: "Eve", max: "Eve", ndv: 1.0, count: 1.0], [bucket id: 5, min: "Frank", max: "Frank", ndv: 1.0, count: 1.0] │
│ age         │              5 │ [bucket id: 0, min: "25", max: "25", ndv: 1.0, count: 1.0], [bucket id: 1, min: "28", max: "28", ndv: 1.0, count: 1.0], [bucket id: 2, min: "28", max: "28", ndv: 1.0, count: 1.0], [bucket id: 3, min: "30", max: "30", ndv: 1.0, count: 1.0], [bucket id: 4, min: "35", max: "35", ndv: 1.0, count: 1.0], [bucket id: 5, min: "40", max: "40", ndv: 1.0, count: 1.0]                                 │
│ user_id     │              6 │ [bucket id: 0, min: "1", max: "1", ndv: 1.0, count: 1.0], [bucket id: 1, min: "2", max: "2", ndv: 1.0, count: 1.0], [bucket id: 2, min: "3", max: "3", ndv: 1.0, count: 1.0], [bucket id: 3, min: "4", max: "4", ndv: 1.0, count: 1.0], [bucket id: 4, min: "5", max: "5", ndv: 1.0, count: 1.0], [bucket id: 5, min: "6", max: "6", ndv: 1.0, count: 1.0]                                             │
└───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

Databend Cloud 体验优化

我们给 Databend Cloud 带来了一些新功能，准备好迎接更棒的体验吧！

您现在可以将工作区分享给您组织中的所有人或特定的个人。

支持对计算集群进行批量重启、批量挂起、批量恢复和批量删除操作。

新 SQL 函数

我们新增了一些SQL函数：

JQ ：允许您对存储在 Variant 列中的 JSON 数据应用 jq 过滤器。
JSON_OBJECT_AGG ：将键值对转换为 JSON 对象。
JSON_ARRAY_AGG ：将值转换为 JSON 数组，同时跳过 NULL 值。
MONTHS_BETWEEN ：返回两个日期之间相隔的月份个数.

性能优化

了解我们最新的改进，这些提升使 Databend 更加高效、精确和可靠：

全局计划缓存: 引入了SQL执行计划缓存功能，通过缓存和重用查询计划，加速重复查询的处理，提升性能
十进制计算: 修复了十进制乘法问题，确保计算结果始终精确。
UDF 执行: 优化了 JavaScript 运行时，减少了延迟，提高了用户自定义函数的执行速度。
网络操作: 改进了对网络错误的处理，使 Databend 在分布式环境中更具韧性。
JOIN 性能: 提升了 JOIN 操作的效率，特别是在集群模式下，加快了查询处理速度，减少了复杂查询的延迟。

微信关注我们

原文链接：https://my.oschina.net/u/5489811/blog/15671900

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于云原生向量数据库 PieCloudVector 的 RAG 实践

近年来，人工智能生成内容（AIGC）已然成为最热门的话题之一。工业界出现了各种内容生成工具，能够跨多种模态产生多样化的内容。这些主流的模型能够取得卓越表现，归功于创新的算法、模型规模的大幅扩展，以及海量的高质量数据集。然而 AIGC 依然面临一系列挑战，检索增强生成（RAG）技术作为 LLM 的一项重要补充被提出。本文将结合实例演示，和大家一起探索基于 PieCloudVector 的 RAG 实践。 AIGC 强调内容是通过先进的生成模型，而非人类或基于规则的方法来产生的。近年来，AIGC 技术飞速发展，序列到序列的任务，已经从依赖长短期记忆网络（LSTM）转变为采用基于 Transformer 的模型，而图像生成任务，也从生成对抗网络（GANs）转向了潜在扩散模型（LDMs）。基础模型的架构，最初由数百万参数构成，现在已经扩展到数十亿甚至数万亿参数。这些进步得益于丰富且高质量的数据集，它们为模型参数的全面优化提供了充足的训练样本。信息检索是计算机科学中的另一个核心应用，它与内容生成不同，其目标是在海量资源中定位相关的现有对象。目前，高效的信息检索系统能够处理达到数十亿数量级的文...

2024-09-05

326

在当今这个数据驱动的时代，各行各业都正经历着前所未有的变革。伴随技术的飞速发展，数据仓库作为企业数据管理与分析的核心，如何更好地发挥作用，助力企业保持业务的敏捷性与成本效益，成为大家关心的焦点问题。本文将通过具体案例分析，展现基于离线开发的数据仓库转型落地中的关键步骤与实施策略。一、业务增长迅速，原数仓架构难以为继客户A是一家中美合资的泛金融行业公司，成立时间短但业务增长十分迅速。数仓团队规模不到10个人，勉强能支撑起业务需求，在面对越来越高要求的业务数据供给及公司内部降本增效的趋势下，团队也在不断探索新型的数仓平台模式，目前数仓架构如下图：客户底座集群采购了CDP7.1.6、数据集成采用Sqoop，将业务库的数据同步至HDFS后，通过Hive SQL做数据开发。另有少量的Shell、Python任务，使用Oozie进行离线任务调度。二、当前数据平台问题日渐凸显随着业务体量的逐渐增长，当前数据平台架构的问题也逐渐凸显： 1. 运维成本高：Sqoop和Oozie都是开源工具，集成性一般，组件的升级和异常排查需要耗费较多人力成本。 ** 2. 平台上手门槛高**：除数据开发外，很...

2024-09-05

324

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。