向量数据库超硬核升级!2种度量空间,1个算法全搞定!
作者:傅聪,检索算法 NSG 作者,向量检索专家,《业务驱动的推荐系统:方法与实践》作者,浙江大学计算机博士,美国南加州大学访问学者 公众号:傅聪Cong 向量检索算法,作为AI时代基础设施——向量数据库的核心组件,已被广泛应用于各类由AI模型驱动的搜索场景中,例如推荐系统召回、搜索引擎召回、以图搜图、语音检索、人脸识别与匹配、RAG(Retrieval-Augmented Generation)等。 然而,深入了解相关研究进展后我们会发现,当前面向最小欧式距离(Minimal Euclidean distance)检索和面向最大内积(Maximum Inner Product)检索的算法之间,存在一条难以跨越的技术鸿沟。这种割裂,正是许多朋友向我吐槽“向量检索门槛太高”的根本原因之一。 大多数使用向量数据库的用户,其实并不关心生成向量的AI模型是如何训练的,也不太在意该选择什么样的模型架构或向量度量方式——他们只想知道一件事:到底该用哪种算法、哪种度量方式,效果最好? 但当用户去查阅资料或请教研究者时,得到的回答往往是:“这个模型适合用欧式距离”、“那个模型用最大内积效果更好”,甚至...