基于AI的架构优化：创新数据集构造法提升Feature envy坏味道检测与重构准确率-低调大师

基于AI的架构优化：创新数据集构造法提升Feature envy坏味道检测与重构准确率

2023-12-01 429

本文分享自华为云社区《华为云基于AI实现架构坏味道重构取得业界突破，相应文章已被软工顶会FSE 2023收录》，作者：华为云软件分析Lab。

基于AI技术实现架构坏味道检测与重构建议是当前业界比较流行的做法，但此做法往往存在一个通病，即训练数据集的质量问题，如何构建大规模、高质量的训练数据成为制约算法有效性的关键挑战。针对这项挑战，我们以Feature envy架构坏味道为例，利用一系列启发式规则和一个基于决策树的分类器，实现了一种基于真实数据的高质量重构数据集构造方法，并利用此方法构建的数据集将Feature envy架构坏味道的检测与重构准确率提升到业界SOTA水平。此工作来自华为云技术创新Lab和北京理工大学刘辉教授团队的合作项目，相应产出已落地至华为公司内部研发工具，相关研究成果已被软件工程领域顶会ESEC/FSE 2023（CCF A类）正式收录，文章详细内容已经公开，欢迎查阅。

图1 Feature envy检测方法概览

如何获得真实世界的移动方法重构数据集

我们通过一系列启发式规则和一个基于决策树的分类器来自动过滤现有的重构检测工具的误报。如果移动方法重构的源类在新版本中不存在或者目标类在旧版本中不存在，我们过滤这样的重构，因为它们通常是与其它重构紧密相关的，例如提取类重构。其次我们也过滤掉重写方法，测试方法，以及构造函数，因为测试方法与生产代码无关，其目的是为了测试生产代码中某个方法是否符合开发者的预期。而重写方法和构造函数通常不能被移动由于其编程特性。我们也利用了一个决策树分类器来进一步过滤简单的启发式规则无法解决的情况。由于移动方法通常会涉及调用关系的迁徙，因此我们分别提取移动方法在两个版本上的调用关系以及它们的语句匹配关系作为决策树的特征。通过这两步过滤，使开发者可以在大量提交中自动挖掘移动方法重构，降低其误报的存在。

如何实现Feature envy的智能检测与重构

通过在大量的项目和提交上挖掘移动方法重构，并应用我们的误报过滤方法，我们可以自动地收集真实世界中由开发者所执行的大量且高质量的移动方法重构示例。为了训练一个Feature envy检测模型，我们也在相同的项目中随机地等比例采样了未移动的方法作为训练数据集中的负样本。我们的模型输入包括文本度量和结构度量两部分。其中文本度量由移动方法名，源类名，和目标类名三方面组成。结构度量包含移动方法分别和源类以及目标类之间的Jaccard距离（dist），与源类和目标类中的方法的调用次数（mcmc），以及与源类和目标类中的方法的调用个数（cbmc）。基于训练好的模型，我们可以检测真实世界中的项目是否存在Feature envy方法。并为其提供解决方案。对于待检测的方法，我们也提出了一系列启发式规则来降低误报的可能性。包括数据类和工具类的过滤等。这样的类通常是为了向外部提供数据访问和操作。因此它们会被外部的方法频繁访问但访问此类的方法并不应该被移动到这样的类中。

图2 Feature envy模型

方法效果评估

表1 评估结果

我们选择了当前最先进的基于深度学习的方法（feDeep）以及知名的基于启发式的方法（JDeodorant和JMove）。我们的方法在5个真实世界的项目上与这些方法相比，针对Feature envy检测的准确性有明显的提升。我们由此推断出利用真实世界代码训练出的模型在实际检测的过程中具备更好的表现。另外，所提出的方法在重构推荐上相比于现有的基于深度学习的方法也有明显的提升。

PaaS技术创新Lab隶属于华为云，致力于综合利用软件分析、数据挖掘、机器学习等技术，为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力，不断构筑研发利器，持续交付高价值商业特性！加入我们，一起开创研发新“境界”！

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10315705

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Go语言实现GoF设计模式：备忘录模式的实践探索

本文分享自华为云社区《【Go实现】实践GoF的23种设计模式：备忘录模式》，作者：元闰子。简介相对于代理模式、工厂模式等设计模式，备忘录模式（Memento）在我们日常开发中出镜率并不高，除了应用场景的限制之外，另一个原因，可能是备忘录模式 UML 结构的几个概念比较晦涩难懂，难以映射到代码实现中。比如 Originator（原发器）和 Caretaker（负责人），从字面上很难看出它们在模式中的职责。但从定义来看，备忘录模式又是简单易懂的，GoF 对备忘录模式的定义如下： Without violating encapsulation, capture and externalize an object’s internal state so that the object can be restored to this state later. 也即，在不破坏封装的前提下，捕获一个对象的内部状态，并在该对象之外进行保存，以便在未来将对象恢复到原先保存的状态。从定义上看，备忘录模式有几个关键点：封装、保存、恢复。对状态的封装，主要是为了未来状态修改或扩展时，不会引发霰弹式修...

2023-12-01

388

Milvus 已支持 Upsert、 Kafka Connector、Airbyte！在上周的文章中《登陆 Azure、发布新版本……Zilliz 昨夜今晨发生了什么？》，我们已经透露过 Milvus（Zilliz Cloud）为提高数据流处理效率，先后支持了 Upsert、 Kafka Connector、Airbyte，而这些功能的作用都是简化数据处理和集成流程，为开发人员提供更高效的工具来管理复杂的数据，今天我们将向大家一一介绍。 01.Upsert：简化数据更新流程 Upsert 功能上线以前，在 Milvus 中的更新数据需要两个步骤：删除数据，然后再插入新数据。虽然这种方法也可行，但无法确保数据原子性，且操作过于繁琐。Milvus 2.3 版本发布了全新的 Upsert 功能。（Zilliz Cloud 海外版也已上线 Upsert 功能 Beta版）。可以说，Upsert 功能重新定义了数据更新和管理方式。使用 Upsert 时，Milvus 会判断数据是否已经存在。如果数据不存在则插入数据，如果已存在则更新数据。这种具有原子性的方法对 Milvus 这样单独管理插...

2023-12-01

506

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。