CodeFuse 开源 C2LLM,用 “注意力池化” 刷新 MTEB-Code 榜单
写代码时,你是否也曾在大海捞针,在海量代码库中苦苦寻找一个函数或解决方案? 在 RAG-for-Code 时代,一个强大的代码 Embedding 模型就是你的“智能导航仪”。但问题是,专为自然语言设计的 Embedding 模型,在理解结构严谨、逻辑性强的代码时,常常会“水土不服”。传统的池化策略,要么是平均池化,无法充分发挥大模型潜力,要么直接使用 EOS 表征,会因信息瓶颈而丢失关键细节。a 现在,代码检索领域迎来了新的王者! 蚂蚁集团与上海交通大学继 F2LLM 后再度联手,重磅推出 C2LLM (Contrastive Code Large Language Models) 系列模型。我们通过基于注意力的创新池化机制,精准解决了代码表征的痛点,一举登顶权威代码榜单 MTEB-Code。 最重要的是,C2LLM 作为 CodeFuse Embedding 开源家族的第四位成员,将继续秉承开放精神,将模型权重、技术报告、使用方式全套回馈社区,希望能为代码大模型的研发提供一个更强的基线! ✨ C2LLM 核心亮点一览 **🏆 登顶榜首:**C2LLM-7B 在权威的 MTEB-C...
