论文推荐｜TDSC2022 安全补丁识别最新的方案E-SPI-低调大师

论文推荐｜TDSC2022 安全补丁识别最新的方案E-SPI

2022-12-20 410

摘要：TDSC 2022发表了安全补丁识别最新的方案“Enhancing Security Patch Identification by Capturing Structures in Commits” (E-SPI)。

本文分享自华为云社区《【论文推荐】TDSC2022 安全补丁识别最新的方案E-SPI》，作者：华为云软件分析Lab。

TDSC 2022发表了安全补丁识别最新的方案“Enhancing Security Patch Identification by Capturing Structures in Commits” (E-SPI)，该方案同时考虑代码提交的Message和Changed Code的拓扑特征，通过实验表明，该方案超过了当前业界的SOTA，达到业界领先。

1. 背景知识

根据《2021年开源安全与风险分析报告》统计,平均每个代码仓含158个安全漏洞，84%的代码仓都至少存在1个安全漏洞。相比20年，21年高风险漏洞环比增长了11%。开源软件带来便利的同时，也引入了潜在的安全风险。大多数软件漏洞都在公开源组件被静默修复，这就导致集成它们的已部署软件无法及时更新，鉴于此，如何高效的识别开源组件的安全补丁成为学术界一个热门的问题。

最近几年，随着深度学习的飞速发展，基于深度学习的安全补丁识别模型快速提升了安全补丁识别模型的有效性。但是，目前大多数现有的安全补丁识别方案直接把代码提交修改的代码、提交信息当成Token，忽略了代码的结构信息，这篇文章提出了E-SPI模型，有效的利用了隐藏在提交中的结构信息，进一步提升识别模型的效果。

2. E-SPI模型架构

E-SPI整体的架构入上图所示，该方案分别对代码提交中的代码修改以及提交信息进行Embedding，最终联合两者的特征，来识别安全补丁。

代码修改编码器：对于代码提交中代码修改，该方案首先抽取代码修改前的函数Pre-function 和代码修改后的函数Post-function ；接着对着两个函数进行AST解析，为了适配序列模型的输入，该方案创新的提出了AST Path提取方法，将、对应AST的图转换成两类AST Paths：Within-context paths、Within-changes paths，其中Within-context paths代表AST树上开始的节点在修改代码中，结束节点不在修改的代码中的路径，Within-changes path代表AST树上开始和结束都在修改代码中的路径；最终以1:1的比例随机分别选取K个Within-context paths 和Within-context paths，来表征代码修改，输入Bi-LSTM完成代码修改的Embedding。

提交信息编码器：对于代码提交中的提交信息，该方案将原始的自言语言进行Dependency Graph解析，从而获取自言语言的依赖关系，针对该图结构，使用Gated Graph Neural Network完成编码。

3. 结果

为了对比，这篇文章选取了学术界7个典型的安全补丁识别算法，这些模型主要的特征以及架构如下

首先，这篇文章从整体上对所有的模型进行了比较，结果（见下图）显示E-SPI达到了SOTA，这表明，相对其他的方案，E-SPI能更好的对代码提交进行建模。通过进一步观察发现，代码提交信息是安全补丁识别问题的重要特征，加入提交信息的模型（Stacking、PatchRNN、SPI、Transformer、E-SPI）显著比没有加入代码提交信息的模型（Commit2Vec、VulFixMiner）要好，即使架构最简单的Stacking模型（添加了代码提交信息特征）也比只使用修改代码的模型Commit2Vec，VulFixMiner结果要好；另外可以发现,在特征相同的情况下，Transformer-Based的模型（Transformer）反而没有BiLSTM-Based的模型（PatchRNN，SPI，E-SPI）结果好，这有可能是样本不足，导致Transformer-Based模型训练不充分。

为了进一步比较不同模型对代码的建模能力，该篇文章在只使用代码修改作为特征的前提下，也对不同模型进行了比较，结果见下图。结果显示Transformer-Based的模型（Transformer）对代码的建模能力会显著优于其他的架构模型（PatchRNN、SPI、Commit2vec、E-SPI w/o changes、E-SPI w/o context）；另外我们可以发现AST Paths在代码特征建模有显著的增益，这就导致，在整体上E-SPI对代码的建模能力依然超过了Transformer模型。

文章来自：PaaS技术创新Lab，PaaS技术创新Lab隶属于华为云，致力于综合利用软件分析、数据挖掘、机器学习等技术，为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力，不断构筑研发利器，持续交付高价值商业特性！加入我们，一起开创研发新“境界”！

PaaS技术创新Lab主页链接：https://www.huaweicloud.com/lab/paas/home.html

相关文献：

【1】Enhancing Security Patch Identification by Capturing Structures in Commits,

论文地址：https://arxiv.org/pdf/2207.09022.pdf

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/5612017

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Jeffrey Jaffe 已卸任 W3C CEO 一职，结束 12 年任期

W3C 营销和传播主管Coralie Mercier 宣布，在担任 W3C 首席执行官 12 年后，Jeffrey Jaffe 博士已卸任。 W3C 指万维网联盟，创建于1994年，是 Web 技术领域最具权威和影响力的国际中立性技术标准机构。 Jaffe 拥有麻省理工学院的计算机科学博士学位，还拥有数学学士学位和电气工程与计算机科学硕士学位。他从 2010 年 3 月开始担任 W3C 的 CEO 一职，负责 W3C 的全球运营工作，维护 W3C 利益相关者的利益，并维持合作和透明的文化，使 W3C 继续成为 Web 技术开发和管理的领先论坛。 Jaffe 执行参与度、网络潜力和会员价值三管齐下的战略，为 W3C 提供更强大的技术议程、更高的敏捷性，还领导了 W3C 从向法律实体过渡的关键工作。目前 W3C 已成功注册为一家公益性非营利组织，将于 2023 年 1 月正式启动。注册为法律实体，意味着 W3C 拥有更完善的组织架构、章程，以及实现更清晰的报告、问责制、多样性和战略方向，以及更好的全球协调度。 Jaffe 离开后，Ralph Swick已同意担任 W3C 临时 CEO，直到...

2022-12-21

442

摘要：Fork/Join框架位于J.U.C(java.util.concurrent)中，是Java7中提供的用于执行并行任务的框架，其可以将大任务分割成若干个小任务，最终汇总每个小任务的结果后得到最终结果。本文分享自华为云社区《如何使用Java7提供的Fork/Join框架实现高并发程序？》，作者：冰河。 Fork/Join框架位于J.U.C(java.util.concurrent)中，是Java7中提供的用于执行并行任务的框架，其可以将大任务分割成若干个小任务，最终汇总每个小任务的结果后得到最终结果。基本思想和Hadoop的MapReduce思想类似。主要采用的是工作窃取算法（某个线程从其他队列里窃取任务来执行），并行分治计算中的一种Work-stealing策略为什么需要使用工作窃取算法呢？假如我们需要做一个比较大的任务，我们可以把这个任务分割为若干互不依赖的子任务，为了减少线程间的竞争，于是把这些子任务分别放到不同的队列里，并为每个队列创建一个单独的线程来执行队列里的任务，线程和队列一一对应，比如A线程负责处理A队列里的任务。但是有的线程会先把自己队列里的任务干完，...

2022-12-20

481

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。