腾讯优图实验室开源 Youtu-Embedding
腾讯优图实验室正式开源 Youtu-Embedding,这是一款面向企业级应用打造的通用文本表示模型,可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。在信息检索(IR)、语义相似度(STS)、聚类、重排序和分类等一系列广泛的自然语言处理任务上,均展现出卓越的性能。
模型权重、推理代码及完整的训练框架现已开源,首个模型版本已在HuggingFace上发布,这是一个拥有20亿(2B)参数的通用语义表示模型。
根据介绍,Youtu-Embedding的核心优势包括:
- 在中文文本嵌入评测基准 CMTEB 上,Youtu-Embedding 以 77.46 的高分荣登榜首(截至2025年09月)
- 精密的三阶段训练:通过“LLM基础预训练 → 弱监督对齐 → 协同-判别式微调”的训练流程,系统性地将大模型的广博知识转化为专用于嵌入任务的判别能力。
- 创新的微调框架:设计了统一数据格式、任务差异化损失函数和动态单任务采样机制,解决了多任务学习中的“负迁移”难题,实现了多任务的稳定协同训练。(该框架在多种基础编码器上进行了验证,保障其通用性和有效性)
- 精细化的数据工程:结合了基于LLM的高质量数据合成技术与高效的难负例挖掘策略,为模型训练提供了最坚实的数据基础。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
go-carbon v2.6.13 正式版发布,轻量级、语义化的 golang 时间处理库
carbon 是一个轻量级、语义化、对开发者友好的golang时间处理库,不依赖于任何第三方库,100%单元测试覆盖率,已被awesome-go收录,并获得gitee2024 年最有价值项目(GVP)和gitcode2024 年度开源摘星计划 (G-Star) 项目 document:carbon.go-pkg.com github:github.com/dromara/carbon gitee:gitee.com/dromara/carbon gitcode:gitcode.com/dromara/carbon 更新日志 在language.go的SetLocale方法中使用sync.Once确保语言文件只加载一次,使用sync.Map进行线程安全的缓存 在helper.go的format2layout方法中为转义字符处理添加边界检查,防止越界访问导致的panic
-
下一篇
腾讯启动青云奖学金,面向 AI 领域硕博生提供价值 50 万元支持
腾讯宣布全面启动青云奖学金。该项目重点关注人工智能领域的基础研究与应用创新,针对中国大陆及港澳台地区院校就读、具有中国国籍的硕士或博士生,希望申请者来自计算机科学、人工智能及其交叉领域,并拥有前瞻性科研视野。项目首期预计评选出15位获奖者,每位获奖者将获得总价值50万元人民币的现金及算力资源支持。 具体包括:20万元现金奖励,用于支持获奖者的科研活动和个人发展;价值30万元的云异构算力资源。腾讯方面表示,30万元大约可以支持3个月前沿GPU实例24小时不间断使用。除这些奖励外,15名获奖者还将有机会进入腾讯实习或就业。 腾讯招聘全球负责人罗海波表示,腾讯青云奖学金不仅是一份经济上的支持,也是一个连接学术界与产业界的平台。腾讯希望通过这个计划,为青年学者提供更多资源和机会。 2024年,腾讯研发投入达707亿元,自2018年至今研发投入超过3795亿元。目前,腾讯科技类人才占比已达73%。 该公司此前曾推出面向全球顶尖技术学子的人才专项“青云计划”。该专项通过提供定制化培养方案、开放核心业务工作机会、解锁前瞻性技术课题和极具竞争力的薪酬,培养未来的科技人才。其招募对象是2024年1月-2...
相关文章
文章评论
共有0条评论来说两句吧...