您现在的位置是:首页 > 文章详情

腾讯优图实验室开源 Youtu-Embedding

日期:2025-10-14点击:12

腾讯优图实验室正式开源 Youtu-Embedding,这是一款面向企业级应用打造的通用文本表示模型,可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。在信息检索(IR)、语义相似度(STS)、聚类、重排序和分类等一系列广泛的自然语言处理任务上,均展现出卓越的性能。

模型权重、推理代码及完整的训练框架现已开源,首个模型版本已在HuggingFace上发布,这是一个拥有20亿(2B)参数的通用语义表示模型。

根据介绍,Youtu-Embedding的核心优势包括:

  • 在中文文本嵌入评测基准 CMTEB 上,Youtu-Embedding 以 77.46 的高分荣登榜首(截至2025年09月)

  • 精密的三阶段训练:通过“LLM基础预训练 → 弱监督对齐 → 协同-判别式微调”的训练流程,系统性地将大模型的广博知识转化为专用于嵌入任务的判别能力。
  • 创新的微调框架:设计了统一数据格式、任务差异化损失函数和动态单任务采样机制,解决了多任务学习中的“负迁移”难题,实现了多任务的稳定协同训练。(该框架在多种基础编码器上进行了验证,保障其通用性和有效性)
  • 精细化的数据工程:结合了基于LLM的高质量数据合成技术与高效的难负例挖掘策略,为模型训练提供了最坚实的数据基础。
原文链接:https://www.oschina.net/news/377360
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章