M3E/OpenAi+vearch内容查重实践 | 京东云技术团队
一、实践背景介绍 1、业务背景 京东健康内容中台H2有一个目标就是需要替换两家CP内容(总体内容体量百万级),我们现在的逻辑是想按照PV热度优先高热去新生产和替换。替换后可以极大的节省cp内容引入的成本。 第一步:这么多内容,我们的生产逻辑需要按照学科和索引归类和分配,进而批量生产,靠人工一篇篇补索引,效率会很低。希望借助算法的能力,如果现在还不是非常准确,也可以算法+人工修正, 第二步:按索引归类好之后,我们和库内非CP但主题相似内容进行比对,已经有的就不做重复生产。最后剩下来的进行批量生产和替换。 2、技术背景 M3E(M3E(Multimodal Multitask Meta-Embedding)是一个开源的中文嵌入模型 Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。也是京东自研开源的项目,具有强大的相似搜索的弹性分布式能力。 OpenAI的迅速发展对算法成本产生了重大影响。随着技术的进步和研究的不断推进,OpenAI已经取得了许多突破,使得算法的开发和部署成本大大降低。OpenAI的Chat模式和Embedding模式是OpenAI API中的两种不同...
















