百度开源自研高性能 ANN 检索引擎 Puck
百度宣布在 Apache 2.0 协议下开源自研的 ANN 检索引擎 —— Puck,名称取自经典 MOBA 游戏 DOTA 中的智力英雄-Puck,是飘逸、灵动的代表。ANN全称近似最近邻检索(Approximate Nearest Neighbor),目标是从全量向量数据中寻找距离最近的TopK个向量,同时需要平衡检索效果和检索成本。 Puck 的优势 易用性:提供简单易用的API接入,尽量少的暴露参数,大部分参数使用默认即可达到良好性能。 扩展性:采用完全自研的索引结构,支持多种功能扩展,适应多种场景,项目模块划分合理,便于改造优化,可方便用户接口自行添加。 高性能:在benchmark的千万、亿、十亿等多个数据集上,Puck性能优势明显,均显著超过竞品。 可靠性:经过多年在实际大规模场景下的验证打磨,广泛应用于百度内部包括搜索、推荐等三十余条产品线,支撑万亿级索引数据和海量检索请求。 Puck 功能拓展 实时插入:支持无锁结构的实时插入,做到数据的实时更新。 条件查询:支持检索过程中的条件查询,从底层索引检索过程中就过滤掉不符合要求的结果,解决多路召回归并经常遇到的截断问题,更...


