问鼎CodeXGLUE榜单，华为云UniXcoder-VESO-v1算法取得突破-低调大师

问鼎CodeXGLUE榜单，华为云UniXcoder-VESO-v1算法取得突破

2023-05-15 811

摘要：华为云PaaS技术创新团队基于UniXcoder模型，在公开测试数据集（CodeXGLUE）上的代码搜索任务评测结果上取得突破，在CodeXGLUE榜单上排名中第一。

本文分享自华为云社区《代码语义搜索算法哪家强？华为云UniXcoder-VESO-v1算法取得突破，问鼎CodeXGLUE榜单第一名》，作者：华为云软件分析Lab 。

按照查询语句的类型，代码搜索可以分为代码关键字搜索和代码语义搜索。代码关键字搜索主要通过索引代码实体（如类、方法、变量等），查询定位代码实体的定义及引用；代码语义搜索的目标是支持开发人员基于自然语言方式来描述代码特性，从而进行相关代码的推荐与搜索。在开发人员编程过程中帮助其查找最佳代码示例实践和库使用示例，从而开发者可以通过功能描述搜索到代码。

目前，大多数代码搜索引擎仅支持代码关键字搜索，这需要开发者了解他们正在搜索的代码，例如类名、函数名、API调用等等，这具有很大的局限性。多数用户通常通过搜索代码示例来指导他们完成特定的编码任务，他们更倾向于使用自然语言来描述待编码实现的功能，从而借鉴开源社区中已存在的相关代码片段。代码语义搜索可以支持开发人员在不知道类或函数名称的情况下使用自然语言方式来描述所需的代码功能。借助于语言模型及不同自然语言之间的映射关系，开发者甚至可以基于中文描述搜索出包含英文功能描述的代码片段。

随着语言大模型（Large Language Model, LLM）技术的发展，一系列语言大模型（如BERT [1]、XLNet [2]、GPT [3]、RoBERTa [4]等）在自然语言处理任务上取得了巨大的成功，为源代码处理任务提供了技术基础。这些模型已经应用于代码摘要和代码语义搜索，打败了以前的最先进方法。语义搜索背后的想法是将语料库中的所有条目，无论是句子、段落还是文档，都编码到向量空间中。在搜索时，查询被编码到相同的向量空间中，并找到语料库中最近的向量。这些条目应与查询具有高度的语义重叠。代码语义搜索使用编码大模型将查询及代码片段编码成向量，使得语义相关或相近的代码片段和查询在向量空间内落在相近的位置。如下图所示：

有很多算法使用不同的编码器对代码片段和查询进行编码，最新和最有希望的研究集中在通用编码器和解码器上，这些编码器和解码器使用相同的神经网络来编码所有编程语言代码片段和文本。

Salza等人 [5]基于原始BERT[1]模型，用多种编程语言代码预训练一个新的BERT模型，并用两个编码器（一个处理自然语言，另一个处理代码片段）精调该模型，首先证明了处理自然语言的基于Transformer架构的模型可以被直接应用到代码搜索任务中。

CodeBERT [6]是在自然语言和编程语言序列数据上进行训练的大型语言模型之一，它在代码搜索方面表现较为出色。此外，还发展演化出RoBERTa [4]、TreeBERT [7]、GraphCodeBERT [8]、UniXcoder [9]等在代码搜索方面表现出色的自然语言与编程语言结合训练的模型。

华为云PaaS技术创新团队基于UniXcoder模型，通过混淆代码片段、增加海量开源代码作为训练集、提高批尺寸等精调方法，实现了UniXcoder-VESO-v1算法，该算法在公开测试数据集（CodeXGLUE [10]）上的代码搜索任务评测结果上取得突破：平均倒数排序值（MRR）达到0.58，CodeXGLUE榜单上排名中第一（如下图所示： UniXcoder-VESO-v1，详见https://microsoft.github.io/CodeXGLUE/）。我们将持续推进该工作的技术创新与突破，会选择合适方式披露内部技术细节，如感兴趣，欢迎持续关注我们的订阅号文章。

文章来自：PaaS技术创新Lab，PaaS技术创新Lab隶属于华为云，致力于综合利用软件分析、数据挖掘、机器学习等技术，为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力，不断构筑研发利器，持续交付高价值商业特性！加入我们，一起开创研发新“境界”！（详情欢迎联系 mayuchi1@huawei.com；guodongshuo@huawei.com)

PaaS技术创新Lab主页链接：https://www.huaweicloud.com/lab/paas/home.html

参考文献

[1]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186
[2]. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell, Ruslan Salakhutdinov, Quoc V. Le: XLNet: Generalized Autoregressive Pretraining for Language Understanding. NeurIPS 2019: 5754-5764
[3]. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. NeurIPS 2020
[4]. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov: RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692 (2019)
[5]. Pasquale Salza, Christoph Schwizer, Jian Gu, Harald C. Gall: On the Effectiveness of Transfer Learning for Code Search. IEEE Trans. Software Eng. 49(4): 1804-1822 (2023)
[6]. Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, Ming Zhou: CodeBERT: A Pre-Trained Model for Programming and Natural Languages. EMNLP (Findings) 2020: 1536-1547
[7]. Xue Jiang, Zhuoran Zheng, Chen Lyu, Liang Li, Lei Lyu: TreeBERT: A tree-based pre-trained model for programming language. UAI 2021: 54-63
[8]. Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Alexey Svyatkovskiy, Shengyu Fu, Michele Tufano, Shao Kun Deng, Colin B. Clement, Dawn Drain, Neel Sundaresan, Jian Yin, Daxin Jiang, Ming Zhou: GraphCodeBERT: Pre-training Code Representations with Data Flow. ICLR 2021
[9]. Daya Guo, Shuai Lu, Nan Duan, Yanlin Wang, Ming Zhou, Jian Yin: UniXcoder: Unified Cross-Modal Pre-training for Code Representation. ACL (1) 2022: 7212-7225
[10]. https://microsoft.github.io/CodeXGLUE/

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/8775433

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源创业・潜力股・英雄帖，在 20+ 投资人面前秀出你的实力

GOTC “开源创投论坛”招募正式开启。5 月 28 日，上午 9:00-12:00，上海张江科学会堂，特别邀请 20+ 投资机构现场坐镇，欢迎你的到来。此论坛旨在汇集全球的投资者、企业家、开发者和开源社区领袖，共同探讨开源软件产业的发展趋势、商业模式和投资机会。在这里，您将有机会深入了解如何利用开源生态推动创新和经济增长。您将听到来自顶级投资机构、知名企业和成功创业公司的演讲，分享他们在开源创业方面的见解和经验。本论坛特别策划了一个项目展示环节，为优秀的开源创业项目提供展示平台，让投资者和合作伙伴发掘具有潜力的投资机会。我们相信，通过这次论坛，参与者们将能够拓展人脉、交流经验，共同推动开源软件产业的繁荣发展。每位嘉宾 15 分钟展示自己的开源项目、基于开源项目的创业思考与经验等。10 分钟演讲 + 5 分钟问答环节。欢迎提交议题，秀出你的实力：https://qaxb95n3g50.feishu.cn/share/base/form/shrcnT75tDBUGWJyN48ksJg3vpb 全球开源技术峰会（Global Open-source Technology Confe...

2023-05-16

900

GOTC “开源创投论坛”招募正式开启。5 月 28 日，上午 9:00-12:00，上海张江科学会堂，特别邀请众多投资机构现场坐镇，欢迎你的到来。此论坛旨在汇集全球的投资者、企业家、开发者和开源社区领袖，共同探讨开源软件产业的发展趋势、商业模式和投资机会。在这里，您将有机会深入了解如何利用开源生态推动创新和经济增长。您将听到来自顶级投资机构、知名企业和成功创业公司的演讲，分享他们在开源创业方面的见解和经验。本论坛特别策划了一个项目展示环节，为优秀的开源创业项目提供展示平台，让投资者和合作伙伴发掘具有潜力的投资机会。我们相信，通过这次论坛，参与者们将能够拓展人脉、交流经验，共同推动开源软件产业的繁荣发展。每位嘉宾 15 分钟展示自己的开源项目、基于开源项目的创业思考与经验等。10 分钟演讲 + 5 分钟问答环节。欢迎提交议题，秀出你的实力：https://qaxb95n3g50.feishu.cn/share/base/form/shrcnT75tDBUGWJyN48ksJg3vpb 全球开源技术峰会（Global Open-source Technology Conferen...

2023-05-15

406

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。