专访丨从技术流派到实际应用,邱培峰全面解析向量数据库的选型要点
本文转载自公众号 IT168企业级《从技术流派到实际应用,邱培峰全面解析向量数据库的选型要点》
IT168 特别策划了《向量数据库选型指南》,笔者通过对话一线技术专家,全面剖析向量数据库的最新发展动态与核心技术优势,分享各个行业实际应用中遇到的挑战及成功案例,为用户在选型过程中提供有力支持。
本期,我们有幸采访到了拓数派向量数据库负责人邱培峰,针对向量数据库的技术路线选择,以及 PieCloudVector 有哪些独特的优势,向量数据库未来的发展趋势,以及选型建议等问题进行了深入交流。
向量数据库选型三大关键点
向量数据库作为专为向量搜索而设计的数据库,其学术研究和产业实践均取得了显著进展。然而,随着大语言模型技术的突破,与自然语言紧密相关的向量数据量呈指数级增长,这不仅加剧了对高效搜索的需求,还衍生出对向量与标量数据混合管理的新挑战。
传统数据库在应对向量与标量数据混合查询时显得力不从心,无法充分适应多模态数据处理和高效的相似度搜索复杂场景,难以满足企业日益增长的业务需求。而向量数据库擅长容纳图像、音频、文本等多模态数据,并通过将这些数据映射为向量表示,利用向量相似度进行关联和检索。
邱培峰认为,“在选择向量数据库时,用户需要综合考虑向量算法、通用数据管理和配套工具生态三个方面。”同时,还需要结合具体的业务需求和技术要求进行评估和测试,以选择最适合自己的数据库产品。此外,随着技术的不断发展,还需要关注数据库产品的更新和升级情况,以确保其能够持续满足业务需求。
- 向量算法优化
向量搜索算法作为向量数据库的核心功能,扮演着举足轻重的角色,不同算法依据特定场景和性能需求各有千秋。用户在评估时,核心关注点通常集中于几个关键指标:每秒查询量(QPS)、召回率(即准确度)、CPU 与内存资源消耗,以及 GPU 加速支持。
这些性能指标之间往往需要取舍,单一算法无法在所有维度上都达到最优。因此,提供更多样化的算法选项和细致的参数调节能力至关重要,这有助于用户在各项性能指标间灵活找寻最佳平衡点,进而拓宽数据库的适用场景和提升其泛用性。
- 通用数据管理强化
通用数据管理是向量数据库不可或缺的组成部分,关键在于有效整合向量数据及其伴随的元数据,如原始文本、创建时间、用户标识、来源路径或 url 等,这些附属信息统称为标量数据,对向量的搜索最终是要反映到这些关联信息上面。
数据一致性、操作原子性、混合查询、多用户、权限管理等是衡量一款向量数据库通用数据管理能力的关键指标。
- 配套工具生态完善
配套工具生态系统直接关乎向量数据库的用户友好度与实用性。一些关键的优化点涵盖了 SDK 开发、数据导入导出、备份恢复、数据可视化,以及与大语言模型生态的集成等方面。
向量数据库的两种技术流派
当前向量数据库技术领域分化为两大流派:一方是以 Pinecone、Zilliz 和 Chroma 为代表的专有向量数据库,它们凭借卓越的向量检索速度著称,但面对复杂多维的通用数据处理时,灵活性略显不足。
另一方则是传统数据库如 PostgreSQL,通过集成如 pgvector 之类的扩展模块,增强了处理向量数据的能力,尽管在通用性上有所提升,却难以匹敌专有向量数据库在性能和扩展性上的表现。
实际上,前者侧重于向量搜索算法为核心,围绕其构建功能完善的生态系统,诸如 Pinecone 与 Zilliz,它们多基于 faiss 这一强大开源库,性能表现直接受益于 faiss 的优化。后者则是在成熟的 SQL 数据库基础上,如 PostgreSQL,引入向量搜索功能,pgvector 即为典型例证,以此实现向量化数据的便捷查询。
在设计 PieCloudVector 时,拓数派力求融合两大技术方向之长,独辟蹊径。邱培峰指出,“我们选择将 faiss 组件与自研的基于 postgres 内核的关系型数据库对接起来,这样既能达到 pinecone 等产品同级别的性能,又能有基于postgres的通用数据库能力。”
PieCloudVector 为大模型提供长期记忆
拓数派秉承“数据计算,只为新发现”的使命,其大模型数据计算系统实现了AI数学模型、数据与计算的无缝融合,共同推动社会经济效益的持续增长。PieCloudVector 作为拓数派大模型数据计算系统的核心计算引擎之一,是大模型时代分析型数据库的升维之作,它专为多模态大模型AI应用而生。
在邱培峰看来,“相较于传统数据库,PieCloudVector 突破了技术瓶颈,实现了向量化存储和计算资源的弹性扩缩,提高了易用性和性能,增强了元数据变更功能,解决了数据一致性问题,并克服了安全性、可靠性和在线性方面的技术难题。”
据悉,PieCloudVector 全面兼容SQL:2016和 PostgreSQL 生态,支持行存和行列混存。基于 eMPP(弹性大规模并行计算)架构构建,PieCloudVector 不仅支持通过 SQL 接口进行非结构化数据检索,还能与结构化数据进行关联分析。
功能方面,PieCloudVector 基于 PostgreSQL 内核和 faiss 算法库打造,拥有完整的 ACID 数据管理能力,支持标量与向量的混合查询。它支持主流的近似最近邻(ANN)算法和向量编码或压缩算法,支持 SIMD/GPU 加速,并兼容 langchain 等大模型工具生态。
PieCloudVector 不仅支持灵活的单节点部署,更可轻松扩展至分布式架构。在分布式部署中,每个节点承载数据集的一个子切片,搜索结果经过跨节点汇总与重排序,确保返回全局最优解。这一架构设计使 PieCloudVector 能够随着节点数量的增加,线性扩展其数据处理能力,轻松应对海量数据挑战。
性能调优方面,PieCloudVector 提供了灵活的参数调整机制,特别关注于向量搜索算法参数的优化。以ivf算法为例,用户可根据需求调整总分区数和每次搜索分区数这两个核心参数。低分区数有助于缩短索引创建时间,而提高搜索分区数则能增强单次搜索的召回率(recall),但可能伴随搜索时间的增加。
数据安全方面,拓数派团队还为 PieCloudVector 量身打造了透明加密功能。这一功能使得数据在写入磁盘时即自动完成加密,无需用户额外操作,从而大大简化了数据加密的流程。透明加密功能不仅保证了数据的机密性,还确保了即使数据在存储介质上被非法获取,也无法被轻易解密和读取。
PieCloudVector 凭借其卓越的性能和广泛适用性,已成功在各行各业的大模型领域中落地应用,特别是在金融大模型领域展现了显著的优势。其中,东吴证券作为 PieCloudVector 的首个成功落地案例,为用户深入理解市场需求、优化产品设计和功能提供了宝贵的经验。
写在最后
随着技术的演进和市场需求的变化,邱培峰预见到,向量数据库的未来将朝向一个更为全面和智能的方向发展,即直接支持文字搜索的 AI 数据库。基于此,拓数派正积极探索集成大模型和内置向量转换等前沿技术,以实现文字到向量的自动转换和高效搜索。
展望未来,拓数派将持续关注市场和技术的发展动态,不断探索和创新,聚焦数据库在多模态大模型系统中的应用场景,并计划让 PieCloudVector 在这一领域进行深入探索。通过优化 PieCloudVector 对多模态数据的处理能力,为用户提供更为丰富和高效的 AI 应用体验。
嘉宾介绍
邱培峰 拓数派向量数据库负责人
邱培峰目前在拓数派负责向量数据库 PieCloudVector 产品,聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验,在加入拓数派前曾就职于开源大数据平台 Greenplum 团队,担任外部数据源访问框架,对象存储访问扩展,ETL 工具等产品模块的研发,并曾参与 PostgreSQL 多个版本的代码贡献,拥有丰富的存储模块核心开发和性能优化等实践经验。
关于 PieCloudVector
拓数派大模型数据计算系统(PieDataCS)目前支持 PieCloudDB Database、PieCloudVector 和 PieCloudML 三款计算引擎,其中第二款云原生向量计算引擎 PieCloudVector 是大模型时代的分析型数据库升维。PieCloudVector 助力多模态大模型 AI 应用,进一步实现海量向量数据存储、向量数据高效查询,支持和配合大模型的 Embeddings,帮助基础模型在场景 AI 的快速适配和二次开发,是大模型应用必备。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
借助 NGINX 实现 QUIC+HTTP/3 对 OpenSSL 的支持
原文作者:Prabhat Dixit of F5 原文链接:借助 NGINX 实现 QUIC+HTTP/3 对 OpenSSL 的支持 转载来源:NGINX 中文官网 NGINX 唯一中文官方社区 ,尽在nginx.org.cn 开发人员通常希望使用已发布的官方支持库来构建应用和基础架构。即使有了 HTTP/3,他们也非常需要一个既能支持 QUIC 而又不会增加生产基础架构维护成本或操作复杂性的便捷库。 对于许多QUIC+HTTP/3用户而言,默认的加密库是OpenSSL。OpenSSL 默认安装在大多数基于 Linux 的操作系统上,堪称首屈一指的传输层安全(TLS)库,已被大多数网络应用广泛使用。 问题:OpenSSL 与 QUIC+HTTP/3 不兼容 即便得到广泛使用,OpenSSL 也没有提供 QUIC 支持所需的 TLS API,于是 OpenSSL 管理委员会决定自行实现完整的 QUIC 堆栈。这项工作是 OpenSSL v3.4 计划中的一项重要工作,但根据OpenSSL 路线图,不太可能在 2024 年底之前完成。此外,OpenSSL 实现的初始最小可行产物不包含 Q...
- 下一篇
6月22日 TiDB 地区交流活动(武汉站)开启报名啦!一起聊聊“传统vs分布式|分布式数据库 TiDB 的优势场景和产品发展”
很高兴又能在武汉和 TiDBer 们相聚啦!感谢神州数码 TiDB 团队技术负责人、TiDB 社区版主何傲@hey-hoho老师再次担任 TiDB 武汉地区组织者筹备了这场令人期待已久的活动,为武汉地区的 TiDBer 们带来面对面的交流机会,和 TiDB 社区版主、TiCDC 研发负责人、TiDB 元老级用户一起聊聊“传统vs分布式|分布式数据库 TiDB 的优势场景和未来趋势”!希望来参加活动的小伙伴都能有所收获呀~ 活动信息 活动时间:6 月 22 日(周六) 14:00-17:30 活动地点:湖北省武汉市江夏区光谷智慧园7栋青年之家 活动形式:线上+线下同步进行 (线上观看的 TiDBer 可关注 PingCAP 视频号) 活动收益 武汉社区面对面- TiDB 社区时隔 2 年再次走进武汉,我们将为武汉地区的小伙伴们带来面对面的交流机会,了解 TiDB 从这里开始! 由浅入深的技术话题分享- 无论你是TiDB 新手还是资深用户,都可以在本次活动中更全面地了解 TiDB,包含分布式数据库的优势及趋势,TiDB 的优势场景及运维经验,AI 时代下 TiDB 的更多可能性等。 原厂技...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境