引领向量数据库技术新变革,Milvus 2.4 正式上线!
备受关注的 Milvus 2.4 正式上线!
作为向量数据库赛道的领军者,Zilliz 一直致力于推动向量技术的进步与创新。本次发布中,Milvus 新增支持基于 NVIDIA 的 GPU 索引—— CUDA 加速图形索引(CAGRA),突破了现有向量搜索的能力。
GPU 索引是向量数据库技术中的重要里程碑,其速度和性能远超传统的 CPU 索引(如 HNSW)。Zilliz 继 2023 年新增 GPU IVF-Flat 和 GPU IVF-PQ 索引后,又在 Milvus 2.4 版本中进一步增强了 GPU 索引能力。而众所周知,向量搜索速度对于 RAG 应用至关重要。Milvus 2.4 发布后,可以轻松助力用户生成式 AI 应用的开发。
不止如此,Milvus 2.4 还支持多向量检索、Grouping 搜索功能、稀疏向量等。为了方便大家了解新版本,3 月 26 日(周二)晚 8 点,Zilliz 产品经理张粲宇将为大家在直播间详细拆解 Milvus 2.4 的关键特性及答疑解惑。
以下是 Milvus 2.4 的几个重要更新:
🚀支持 CAGRA 索引
Milvus 2.4 新增支持 CAGRA 索引,我们要衷心感谢 NVIDIA 团队对 CAGRA 的宝贵贡献,CAGRA 是 NVIDIA RAFT 库中最先进的基于图形处理器的图形索引。与以前只在大批量下获得性能优势的图形处理器索引不同,CAGRA 即使在小批量查询中也表现出压倒性的优势,虽然这是 CPU 索引传统上擅长的领域。此外,CAGRA 在大批量查询和索引构建速度方面的性能确实是无与伦比的。除了 CAGRA,该版本 Milvus 还支持了 GPU 暴搜,性能有数十倍提升,进一步满足需要高召回率的场景。
🔍支持多向量搜索
Milvus 2.4 支持多向量搜索,进一步为 AI 应用开发赋能。多向量搜索能力能够有效简化处理多模态搜索的流程,并提升检索召回率。Milvus 2.4 支持在 Collection 中存储和搜索多个向量列,从而满足用户在实际应用场景中的需求。
此外,该特性还简化了整合、优化自定义重排模型的流程,支持开发高级搜索功能,如利用多维度数据输入来做综合搜索的系统。
🧮Grouping 搜索
Milvus 2.4 的新增支持 Grouping 搜索功能,使得用户可以在搜索 vector 的基础上做分组聚合,返回的 TopK 是基于分组后的聚合结果而非简单的以向量为中心的片段信息。用户现在可以按特定标量字段中的值聚合搜索结果,这有助于RAG 应用程序实现文档级召回。考虑一个文档集合,每个文档拆分成各种段落。每个段落由一个向量嵌入表示,属于一个文档。要查找最相关的文档而不是分散段落,可以在 search() 操作中包含 group_by_field 参数,以按文档 ID 对结果进行分组。
🔮支持稀疏向量(beta)
Milvus 2.4 还支持稀疏向量。这一特性专为由 SPLADEv2 等神经模型和 BM25 等统计模型生成的向量设计,通过专注于语义相似性,在传统关键词搜索基础之上,进一步增强了语义搜索能力。具体而言,对稀疏向量的支持,进一步增强了 Milvus 的混合搜索能力——即将关键词搜索和向量搜索相结合,最终提高搜索准确性。当前该功能还处于内测阶段中。
➡️倒排索引和模糊匹配支持
在 Milvus 以前的版本中,基于内存的二进制搜索索引和 Marisa Trie 索引用于标量字段索引。然而,这些方法是内存密集型的。Milvus 2.4 采用了基于 Tantivy 的倒排索引,它可以应用于所有数字和字符串数据类型。这个新索引显著提高了标量查询性能,将字符串中关键字的查询减少了十倍。此版本还支持模糊匹配标量过滤使用前缀,中缀和后缀。
✨内存映射存储
Milvus 使用内存映射存储(MMap)来优化其内存使用。这种机制不是将文件内容直接加载到内存中,而是将文件内容映射到内存中。这种方法带来了性能下降的权衡。通过在具有 2 个 CPU 和 8 GB RAM 的主机上为 HNSW 索引集合启用 MMap,您可以加载 4 倍以上的数据,性能下降不到 10%。此外,此版本还允许对 MMap 进行动态和细粒度的控制,而无需重新启动 Milvus。
⬆️ 其他优化
Milvus 2.4 还包含其他新特性及功能优化,包括在元数据过滤中支持使用正则表达式对子字符串进行匹配、全新的标量倒排索引(由 Tantivy 贡献)以及用于检测并同步 Milvus Collection 中数据变化的 Change Data Capture 工具。所有上述新特性及功能优化都致力于提升 Milvus 性能和功能,帮助 Milvus 轻松应对更复杂的数据操作。
扫码预约直播,了解更多关于 Milvus 2.4 的细节:
- 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。
- 欢迎关注微信公众号“Zilliz”,了解最新资讯。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
🌹🌹FlyFlow 新功能上线:升级体验,更多惊喜等你来探索!
FlyFlow功能更新 优化:用户任务审批人支持部门下选择:员工、主管和角色 优化:支持一人多部门组织架构 新增:支持流程组和流程列表搜索 优化:服务端对接FolkMQ处理异步消息 新增:新增消息弹出框提示 新增:表单值变化记录显示 优化:公式表单如果是只读,则值不会跟随变化 新增:清空流程数据功能 优化:UI扁平化显示 删除:部门、用户和角色多余字段 修复:重新发起流程失败 FlyFlow介绍 FlyFlow借鉴了钉钉与飞书的界面设计理念,致力于打造一款用户友好、快速上手的工作流程工具。相较于传统的基于BPMN.js的工作流引擎,我们提供的解决方案显著简化了操作逻辑,使得用户能够在极短的时间内构建定制化的业务流程,即便是不具备深厚技术背景的普通用户也能迅速掌握,实现零门槛的高效工作流配置。
- 下一篇
每日一博 | 分布式数据库技术的演进和发展方向
这些年大家都在谈分布式数据库,各大企业也纷纷开始做数据库的分布式改造。那么,所谓的分布式数据库到底是什么?采用什么架构?优势在哪?为什么越来越多企业选择它?分布式数据库技术会向什么方向发展?带着这些疑问,一探究竟吧!参与文末的话题互动,更有机会赢取精美奖品~ 分布式数据库的架构演进 随着数据量的爆发增长,传统集中式数据库面临极大的挑战: 性能瓶颈:数据规模爆发增长,传统集中式数据库难以维持数据量大时的性能,而分布式数据库的性能可以水平扩展; 缺失混合负载能力:数据量爆发增长带来对数据分析(OLAP)需求的增长。企业需要使用两套系统分别支撑事务交易(OLTP)和数据分析(OLAP),不仅造成了大量的数据冗余,同时增加了系统的复杂度和运维难度。而分布式数据库的混合负载能力可大幅度提升分析的时效性,减少数据冗余,并大大提高灵活性; 高昂成本:集中式数据库水平扩展难,可靠性需要付出高昂的成本。而分布式数据库的架构支持灵活扩展,实现高可用方案的成本较低。 分布式数据库与单机数据库的不同在于其可以将核心功能扩展到多台节点,甚至多个地域,包括事务管理、数据存储和数据查询等。从实现方式上看,分布式数据...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作