专访丨从技术流派到实际应用，邱培峰全面解析向量数据库的选型要点

2024-06-12 324

本文转载自公众号 IT168企业级《从技术流派到实际应用，邱培峰全面解析向量数据库的选型要点》

IT168 特别策划了《向量数据库选型指南》，笔者通过对话一线技术专家，全面剖析向量数据库的最新发展动态与核心技术优势，分享各个行业实际应用中遇到的挑战及成功案例，为用户在选型过程中提供有力支持。

本期，我们有幸采访到了拓数派向量数据库负责人邱培峰，针对向量数据库的技术路线选择，以及 PieCloudVector 有哪些独特的优势，向量数据库未来的发展趋势，以及选型建议等问题进行了深入交流。

向量数据库选型三大关键点

向量数据库作为专为向量搜索而设计的数据库，其学术研究和产业实践均取得了显著进展。然而，随着大语言模型技术的突破，与自然语言紧密相关的向量数据量呈指数级增长，这不仅加剧了对高效搜索的需求，还衍生出对向量与标量数据混合管理的新挑战。

传统数据库在应对向量与标量数据混合查询时显得力不从心，无法充分适应多模态数据处理和高效的相似度搜索复杂场景，难以满足企业日益增长的业务需求。而向量数据库擅长容纳图像、音频、文本等多模态数据，并通过将这些数据映射为向量表示，利用向量相似度进行关联和检索。

邱培峰认为，“在选择向量数据库时，用户需要综合考虑向量算法、通用数据管理和配套工具生态三个方面。”同时，还需要结合具体的业务需求和技术要求进行评估和测试，以选择最适合自己的数据库产品。此外，随着技术的不断发展，还需要关注数据库产品的更新和升级情况，以确保其能够持续满足业务需求。

向量算法优化

向量搜索算法作为向量数据库的核心功能，扮演着举足轻重的角色，不同算法依据特定场景和性能需求各有千秋。用户在评估时，核心关注点通常集中于几个关键指标：每秒查询量（QPS）、召回率（即准确度）、CPU 与内存资源消耗，以及 GPU 加速支持。

这些性能指标之间往往需要取舍，单一算法无法在所有维度上都达到最优。因此，提供更多样化的算法选项和细致的参数调节能力至关重要，这有助于用户在各项性能指标间灵活找寻最佳平衡点，进而拓宽数据库的适用场景和提升其泛用性。

通用数据管理强化

通用数据管理是向量数据库不可或缺的组成部分，关键在于有效整合向量数据及其伴随的元数据，如原始文本、创建时间、用户标识、来源路径或 url 等，这些附属信息统称为标量数据，对向量的搜索最终是要反映到这些关联信息上面。

数据一致性、操作原子性、混合查询、多用户、权限管理等是衡量一款向量数据库通用数据管理能力的关键指标。

配套工具生态完善

配套工具生态系统直接关乎向量数据库的用户友好度与实用性。一些关键的优化点涵盖了 SDK 开发、数据导入导出、备份恢复、数据可视化，以及与大语言模型生态的集成等方面。

向量数据库的两种技术流派

当前向量数据库技术领域分化为两大流派：一方是以 Pinecone、Zilliz 和 Chroma 为代表的专有向量数据库，它们凭借卓越的向量检索速度著称，但面对复杂多维的通用数据处理时，灵活性略显不足。

另一方则是传统数据库如 PostgreSQL，通过集成如 pgvector 之类的扩展模块，增强了处理向量数据的能力，尽管在通用性上有所提升，却难以匹敌专有向量数据库在性能和扩展性上的表现。

实际上，前者侧重于向量搜索算法为核心，围绕其构建功能完善的生态系统，诸如 Pinecone 与 Zilliz，它们多基于 faiss 这一强大开源库，性能表现直接受益于 faiss 的优化。后者则是在成熟的 SQL 数据库基础上，如 PostgreSQL，引入向量搜索功能，pgvector 即为典型例证，以此实现向量化数据的便捷查询。

在设计 PieCloudVector 时，拓数派力求融合两大技术方向之长，独辟蹊径。邱培峰指出，“我们选择将 faiss 组件与自研的基于 postgres 内核的关系型数据库对接起来，这样既能达到 pinecone 等产品同级别的性能，又能有基于postgres的通用数据库能力。”

PieCloudVector 为大模型提供长期记忆

拓数派秉承“数据计算，只为新发现”的使命，其大模型数据计算系统实现了AI数学模型、数据与计算的无缝融合，共同推动社会经济效益的持续增长。PieCloudVector 作为拓数派大模型数据计算系统的核心计算引擎之一，是大模型时代分析型数据库的升维之作，它专为多模态大模型AI应用而生。

在邱培峰看来，“相较于传统数据库，PieCloudVector 突破了技术瓶颈，实现了向量化存储和计算资源的弹性扩缩，提高了易用性和性能，增强了元数据变更功能，解决了数据一致性问题，并克服了安全性、可靠性和在线性方面的技术难题。”

据悉，PieCloudVector 全面兼容SQL:2016和 PostgreSQL 生态，支持行存和行列混存。基于 eMPP（弹性大规模并行计算）架构构建，PieCloudVector 不仅支持通过 SQL 接口进行非结构化数据检索，还能与结构化数据进行关联分析。

功能方面，PieCloudVector 基于 PostgreSQL 内核和 faiss 算法库打造，拥有完整的 ACID 数据管理能力，支持标量与向量的混合查询。它支持主流的近似最近邻（ANN）算法和向量编码或压缩算法，支持 SIMD/GPU 加速，并兼容 langchain 等大模型工具生态。

PieCloudVector 不仅支持灵活的单节点部署，更可轻松扩展至分布式架构。在分布式部署中，每个节点承载数据集的一个子切片，搜索结果经过跨节点汇总与重排序，确保返回全局最优解。这一架构设计使 PieCloudVector 能够随着节点数量的增加，线性扩展其数据处理能力，轻松应对海量数据挑战。

性能调优方面，PieCloudVector 提供了灵活的参数调整机制，特别关注于向量搜索算法参数的优化。以ivf算法为例，用户可根据需求调整总分区数和每次搜索分区数这两个核心参数。低分区数有助于缩短索引创建时间，而提高搜索分区数则能增强单次搜索的召回率（recall），但可能伴随搜索时间的增加。

数据安全方面，拓数派团队还为 PieCloudVector 量身打造了透明加密功能。这一功能使得数据在写入磁盘时即自动完成加密，无需用户额外操作，从而大大简化了数据加密的流程。透明加密功能不仅保证了数据的机密性，还确保了即使数据在存储介质上被非法获取，也无法被轻易解密和读取。

PieCloudVector 凭借其卓越的性能和广泛适用性，已成功在各行各业的大模型领域中落地应用，特别是在金融大模型领域展现了显著的优势。其中，东吴证券作为 PieCloudVector 的首个成功落地案例，为用户深入理解市场需求、优化产品设计和功能提供了宝贵的经验。

写在最后

随着技术的演进和市场需求的变化，邱培峰预见到，向量数据库的未来将朝向一个更为全面和智能的方向发展，即直接支持文字搜索的 AI 数据库。基于此，拓数派正积极探索集成大模型和内置向量转换等前沿技术，以实现文字到向量的自动转换和高效搜索。

展望未来，拓数派将持续关注市场和技术的发展动态，不断探索和创新，聚焦数据库在多模态大模型系统中的应用场景，并计划让 PieCloudVector 在这一领域进行深入探索。通过优化 PieCloudVector 对多模态数据的处理能力，为用户提供更为丰富和高效的 AI 应用体验。

嘉宾介绍

邱培峰拓数派向量数据库负责人

邱培峰目前在拓数派负责向量数据库 PieCloudVector 产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台 Greenplum 团队，担任外部数据源访问框架，对象存储访问扩展，ETL 工具等产品模块的研发，并曾参与 PostgreSQL 多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。

关于 PieCloudVector

拓数派大模型数据计算系统（PieDataCS）目前支持 PieCloudDB Database、PieCloudVector 和 PieCloudML 三款计算引擎，其中第二款云原生向量计算引擎 PieCloudVector 是大模型时代的分析型数据库升维。PieCloudVector 助力多模态大模型 AI 应用，进一步实现海量向量数据存储、向量数据高效查询，支持和配合大模型的 Embeddings，帮助基础模型在场景 AI 的快速适配和二次开发，是大模型应用必备。

微信关注我们

原文链接：https://my.oschina.net/u/5944765/blog/11208900

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

借助 NGINX 实现 QUIC+HTTP/3 对 OpenSSL 的支持

原文作者：Prabhat Dixit of F5 原文链接：借助 NGINX 实现 QUIC+HTTP/3 对 OpenSSL 的支持转载来源：NGINX 中文官网 NGINX 唯一中文官方社区，尽在nginx.org.cn 开发人员通常希望使用已发布的官方支持库来构建应用和基础架构。即使有了 HTTP/3，他们也非常需要一个既能支持 QUIC 而又不会增加生产基础架构维护成本或操作复杂性的便捷库。对于许多QUIC+HTTP/3用户而言，默认的加密库是OpenSSL。OpenSSL 默认安装在大多数基于 Linux 的操作系统上，堪称首屈一指的传输层安全（TLS）库，已被大多数网络应用广泛使用。问题：OpenSSL 与 QUIC+HTTP/3 不兼容即便得到广泛使用，OpenSSL 也没有提供 QUIC 支持所需的 TLS API，于是 OpenSSL 管理委员会决定自行实现完整的 QUIC 堆栈。这项工作是 OpenSSL v3.4 计划中的一项重要工作，但根据OpenSSL 路线图，不太可能在 2024 年底之前完成。此外，OpenSSL 实现的初始最小可行产物不包含 Q...

2024-06-12

320

很高兴又能在武汉和 TiDBer 们相聚啦！感谢神州数码 TiDB 团队技术负责人、TiDB 社区版主何傲@hey-hoho老师再次担任 TiDB 武汉地区组织者筹备了这场令人期待已久的活动，为武汉地区的 TiDBer 们带来面对面的交流机会，和 TiDB 社区版主、TiCDC 研发负责人、TiDB 元老级用户一起聊聊“传统vs分布式｜分布式数据库 TiDB 的优势场景和未来趋势”！希望来参加活动的小伙伴都能有所收获呀～活动信息活动时间：6 月 22 日（周六） 14:00-17:30 活动地点：湖北省武汉市江夏区光谷智慧园7栋青年之家活动形式：线上+线下同步进行（线上观看的 TiDBer 可关注 PingCAP 视频号）活动收益武汉社区面对面- TiDB 社区时隔 2 年再次走进武汉，我们将为武汉地区的小伙伴们带来面对面的交流机会，了解 TiDB 从这里开始！由浅入深的技术话题分享- 无论你是TiDB 新手还是资深用户，都可以在本次活动中更全面地了解 TiDB，包含分布式数据库的优势及趋势，TiDB 的优势场景及运维经验，AI 时代下 TiDB 的更多可能性等。原厂技...

2024-06-12

348

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。