每日一博 | 深度统一粗排在淘宝主搜索的优化实践
两阶段排序(粗排-精排)一开始是因系统性能问题提出的排序框架,长期以来粗排的定位一直是精排的退化版本,但我们发现通过一些技术手段,粗排可以在较大的集合上超越精排。通过重新审视粗排和精排的关系和提出全域hitrate这一新的评价体系,再结合采样优化、蒸馏等手段,我们提升了搜索大盘约1.0%的成交金额 背景 ▐概述 淘宝主搜索是一个典型的多阶段检索系统,主要分为召回、粗排、精排等阶段。召回阶段,由文本召回、个性化等多路召回构成,输出商品量级约10^5;粗排阶段,需要从三路召回集合中分别进行筛选,筛选出10^3量级提供给精排;后续经过精排等阶段再进行筛选输出约top10曝光给用户。(注:下文中10、10^3、10^5等均代表数量级,数值只作为示意,只有其相对大小具备参照意义) 其中,粗排(主搜有时也称之为做海选)本质是从海量候选集中输出一个最佳集合,虽然都是排序但和精排的目标存在很大差异,从目标上来看其实和召回更加相似。同时,我们需要使用排序这个手段来完成,所以常见的论文和方法更倾向于不断的模仿和逼近精排。经过近两年主搜下的探索和实践,从目标上可以总结出的精排与粗排最大的差异是:精排注重头部...
