千亿级模型在离线一致性保障方案详解
导读:在模型的全链路测试过程中,模型的问题统一定义成广义一致性性问题,一致性问题也是模型稳定性的基础保障,落地到具体点上从维度上划分可以分为数据不一致、延时不一致、策略机制不一致、性能不一致等几个方向,在后果衍生上都会导致模型稳定性指标抖动,预估效果不符合预期,所以一致性测试在当前大规模机器学习的测试过程中有着非常重要的作用,但是在通常对于模型的测试方案也很难做到全局解决,其中也牵扯到效果和效率的折中。文章在一致性几个方面要做到核心节点的策略和效果重点保障,最大限度保障停更和回滚的发生,当前一致性方案在百度商业内部落地收益较好,在效果和效率上也做了很多的优化策略,整体方案满足业务线的需求。 全文6948字,预计阅读时间 12分钟。 一、背景与概述 点击率模型在广告检索阶段预估广告可能被点击的概率,在广告的排序、截断中起着重要的作用。 点击率模型分为在线预估和离线训练两部分,离线训练主要进行模型的训练和评估,在线预估主要是模型的应用和反馈。具体的在离线模型闭环链路如图1所示,线上点击和展现的广告数据到视图日志,经过反作弊系统和流式特征抽取后得到样本作用于模型训练,训练好的模型经过评估后应...