每日一博 | 论文赏析:十亿级别单机向量检索方案 DiskAnn
摘要 “DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node” [1] 是 2019 年发表在 NeurIPS 上的论文。该文提出了一种基于磁盘的 ANN 方案,该方案可以在单个 64 G 内存和足够 SSD 的机器上对十亿级别的数据进行索引、存储和查询, 并且能够满足大规模数据 ANNS 的三个需求: 高召回、低查询时延和高密度(单节点能索引的点的数量)。该文提出的方法做到了在 16 核 64G 内存的机器上对十亿级别的数据集 SIFT1B 建基于磁盘的图索引,并且 recall@1 > 95% 的情况下 qps 达到了 5000, 平均时延不到 3ms。 论文作者 Suhas Jayaram Subramanya: 前微软印度研究院员工,CMU 在读博士。主要研究方向有高性能计算和面向大规模数据的机器学习算法。 Devvrit:Graduate Research Assistant at The University of Texas at Austin。研究方向是理论计算机...