R-Drop论文复现与理论讲解-低调大师

R-Drop论文复现与理论讲解

2023-03-07 450

摘要：基于 Dropout 的这种特殊方式对网络带来的随机性，研究员们提出了 R-Drop 来进一步对（子模型）网络的输出预测进行了正则约束。

本文分享自华为云社区《R-Drop论文复现与理论讲解》，作者：李长安。

R-Drop: Regularized Dropout for Neural Networks

由于深度神经网络非常容易过拟合，因此 Dropout 方法采用了随机丢弃每层的部分神经元，以此来避免在训练过程中的过拟合问题。正是因为每次随机丢弃部分神经元，导致每次丢弃后产生的子模型都不一样，所以 Dropout 的操作一定程度上使得训练后的模型是一种多个子模型的组合约束。基于 Dropout 的这种特殊方式对网络带来的随机性，研究员们提出了 R-Drop 来进一步对（子模型）网络的输出预测进行了正则约束。论文通过实验得出一种改进的正则化方法R-dropout，简单来说，它通过使用若干次（论文中使用了两次）dropout，定义新的损失函数。实验结果表明，尽管结构非常简单，但是却能很好的防止模型过拟合，进一步提高模型的正确率。模型主体如下图所示。

论文贡献

由于深度神经网络非常容易过拟合，因此 Dropout 方法采用了随机丢弃每层的部分神经元，以此来避免在训练过程中的过拟合问题。正是因为每次随机丢弃部分神经元，导致每次丢弃后产生的子模型都不一样，所以 Dropout 的操作一定程度上使得训练后的模型是一种多个子模型的组合约束。基于 Dropout 的这种特殊方式对网络带来的随机性，研究员们提出了 R-Drop 来进一步对（子模型）网络的输出预测进行了正则约束。

实现思路

与传统作用于神经元（Dropout）或者模型参数（DropConnect）上的约束方法不同，R-Drop 作用于模型的输出层，弥补了 Dropout 在训练和测试时的不一致性。简单来说就是在每个 mini-batch 中，每个数据样本过两次带有 Dropout 的同一个模型，R-Drop 再使用 KL-divergence 约束两次的输出一致。既约束了由于 Dropout 带来的两个随机子模型的输出一致性。

论文公式

模型的训练目标包含两个部分，一个是两次输出之间的KL散度，如下：

另一个是模型自有的损失函数交叉熵，如下：

总损失函数为：

代码实现

与传统的训练方法相比，R- Drop 只是简单增加了一个 KL-divergence 损失函数项，并没有其他任何改动。其PaddlePaddle版本对应的代码实现如下所示。

散度损失

交叉熵=熵+相对熵(KL散度) 其与交叉熵的关系如下：

代码实现示意

import paddle.nn.functional as F
# define your task model, which outputs the classifier logits
model = TaskModel()
def compute_kl_loss(self, p, q, pad_mask=None):
 p_loss = F.kl_div(F.log_softmax(p, axis=-1), F.softmax(q, axis=-1), reduction='none')
 q_loss = F.kl_div(F.log_softmax(q, axis=-1), F.softmax(p, axis=-1), reduction='none')
    # pad_mask is for seq-level tasks
 if pad_mask is not None:
 p_loss.masked_fill_(pad_mask, 0.)
 q_loss.masked_fill_(pad_mask, 0.)
    # You can choose whether to use function "sum" and "mean" depending on your task
 p_loss = p_loss.sum()
 q_loss = q_loss.sum()
    loss = (p_loss + q_loss) / 2
 return loss
# keep dropout and forward twice
logits = model(x)
logits2 = model(x)
# cross entropy loss for classifier
ce_loss = 0.5 * (cross_entropy_loss(logits, label) + cross_entropy_loss(logits2, label))
kl_loss = compute_kl_loss(logits, logits2)
# 论文中对于CV任务的超参数
α = 0.6
# carefully choose hyper-parameters
loss = ce_loss + α * kl_loss

代码实现实战

项目说明

本次实验以白菜生长的四个周期为例，进行生长情况识别实验。数据来自于讯飞的比赛。数据展示如下：发芽期、幼苗期、莲座期、结球期。

!cd 'data/data107306' && unzip -q img.zip
!cd 'data/data106868' && unzip -q pdweights.zip

# 导入所需要的库
from sklearn.utils import shuffle
import os
import pandas as pd
import numpy as np
from PIL import Image
import paddle
import paddle.nn as nn
from paddle.io import Dataset
import paddle.vision.transforms as T
import paddle.nn.functional as F
from paddle.metric import Accuracy
import warnings
warnings.filterwarnings("ignore")
# 读取数据
train_images = pd.read_csv('data/data107306/img/df_all.csv')
train_images = shuffle(train_images)
# 划分训练集和校验集
all_size = len(train_images)
# print(all_size)
train_size = int(all_size * 0.9)
train_image_list = train_images[:train_size]
val_image_list = train_images[train_size:]
train_image_path_list = train_image_list['image'].values
label_list = train_image_list['label'].values
train_label_list = paddle.to_tensor(label_list, dtype='int64')
val_image_path_list = val_image_list['image'].values
val_label_list1 = val_image_list['label'].values
val_label_list = paddle.to_tensor(val_label_list1, dtype='int64')
# 定义数据预处理
data_transforms = T.Compose([
 T.Resize(size=(256, 256)),
 T.Transpose(), # HWC -> CHW
 T.Normalize(
        mean = [0, 0, 0],
        std = [255, 255, 255],
 to_rgb=True) 
])
# 构建Dataset
class MyDataset(paddle.io.Dataset):
 """
 步骤一：继承paddle.io.Dataset类
    """
 def __init__(self, train_img_list, val_img_list,train_label_list,val_label_list, mode='train'):
 """
 步骤二：实现构造函数，定义数据读取方式，划分训练和测试数据集
        """
 super(MyDataset, self).__init__()
 self.img = []
 self.label = []
 self.valimg = []
 self.vallabel = []
 # 借助pandas读csv的库
 self.train_images = train_img_list
 self.test_images = val_img_list
 self.train_label = train_label_list
 self.test_label = val_label_list
 # self.mode = mode
 if mode == 'train':
 # 读train_images的数据
 for img,la in zip(self.train_images, self.train_label):
 self.img.append('data/data107306/img/imgV/'+img)
 self.label.append(la)
 else :
 # 读test_images的数据
 for img,la in zip(self.test_images, self.test_label):
 self.img.append('data/data107306/img/imgV/'+img)
 self.label.append(la)
 def load_img(self, image_path):
 # 实际使用时使用Pillow相关库进行图片读取即可，这里我们对数据先做个模拟
        image = Image.open(image_path).convert('RGB')
        image = np.array(image).astype('float32')
 return image
 def __getitem__(self, index):
 """
 步骤三：实现__getitem__方法，定义指定index时如何获取数据，并返回单条数据（训练数据，对应的标签）
        """
        image = self.load_img(self.img[index])
        label = self.label[index]
 return data_transforms(image), label
 def __len__(self):
 """
 步骤四：实现__len__方法，返回数据集总数目
        """
 return len(self.img)
#train_loader
train_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='train')
train_loader = paddle.io.DataLoader(train_dataset, places=paddle.CPUPlace(), batch_size=8, shuffle=True, num_workers=0)
#val_loader
val_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='test')
val_loader = paddle.io.DataLoader(val_dataset, places=paddle.CPUPlace(), batch_size=8, shuffle=True, num_workers=0)
from work.senet154 import SE_ResNeXt50_vd_32x4d
from work.res2net import Res2Net50_vd_26w_4s
from work.se_resnet import SE_ResNet50_vd
# 模型封装
# model_re2 = SE_ResNeXt50_vd_32x4d(class_num=4)
model_re2 = Res2Net50_vd_26w_4s(class_dim=4)
model_ss = SE_ResNet50_vd(class_num=4)
model_ss.train()
model_re2.train()
epochs = 2
optim1 = paddle.optimizer.Adam(learning_rate=3e-4, parameters=model_re2.parameters())
optim2 = paddle.optimizer.Adam(learning_rate=3e-4, parameters=model_ss.parameters())
import paddle.nn.functional as F
def compute_kl_loss(p, q, pad_mask=None):
 p_loss = F.kl_div(F.log_softmax(p, axis=-1), F.softmax(q, axis=-1), reduction='none')
 q_loss = F.kl_div(F.log_softmax(q, axis=-1), F.softmax(p, axis=-1), reduction='none')
 # pad_mask is for seq-level tasks
 if pad_mask is not None:
 p_loss.masked_fill_(pad_mask, 0.)
 q_loss.masked_fill_(pad_mask, 0.)
 # You can choose whether to use function "sum" and "mean" depending on your task
 p_loss = p_loss.sum()
 q_loss = q_loss.sum()
    loss = (p_loss + q_loss) / 2
 return loss
# 用Adam作为优化函数
for epoch in range(epochs):
 for batch_id, data in enumerate(train_loader()):
 x_data = data[0]
 y_data = data[1]
        predicts1 = model_re2(x_data)
        predicts2 = model_ss(x_data)
        loss1 = F.cross_entropy(predicts1, y_data, soft_label=False)
        loss2 = F.cross_entropy(predicts2, y_data, soft_label=False)
 # cross entropy loss for classifier
 ce_loss = 0.5 * (loss1 + loss2)
 kl_loss = compute_kl_loss(predicts1, predicts2)
 # 论文中对于CV任务的超参数
        α = 0.6
 # carefully choose hyper-parameters
        loss = ce_loss + α * kl_loss
 # 计算损失
        acc1 = paddle.metric.accuracy(predicts1, y_data)
        acc2 = paddle.metric.accuracy(predicts2, y_data)
 loss.backward()
 if batch_id % 50 == 0:
 print("epoch: {}, batch_id: {}, loss1 is: {}".format(epoch, batch_id, loss.numpy()))
        optim1.step()
        optim1.clear_grad()
        optim2.step()
        optim2.clear_grad()

总结

本文介绍了R-Drop，它将“Dropout两次”的思想用到了有监督任务中，每个实验结果几乎都取得了明显的提升，并以白菜生长情况识别为例对R-Drop进行了实战。

R-Drop论文的实现思路实际上非常简单，在论文中，作者对CV以及NLP两大任务进行了实验，但是几乎用的都是Transformer的模型，深度神经网络是深度学习的基础，但其在训练模型时会出现过拟合的问题，而简单易用的 Dropout 正则化技术可以防止这种问题的发生。然而 Dropout 的操作在一定程度上会使得训练后的模型成为一种多个子模型的组合约束。

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/8483548

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

数据库革新拐点已来——MatrixOne Beta Program Recap

从 2021 年创业起，矩阵起源 MatrixOrigin已经走过了2年。在今年的2月22日，我们也刚刚庆祝了 2 周年的生日。很多与我们一路走来，携伴同行的伙伴们也共同见证了 MatrixOne 从 0 到 1 的整个成长历程。 2023 年作为里程碑式的一年，MatrixOrigin 将以产品商业化闭环作为最重要的目标。为此，我们也在年初推出了MatrixOne Beta Program——用户体验计划，邀请初期用户、合作伙伴以及外部开发者加入，深度参与到 MatrixOne 的迭代开发中来，为 MatrixOne 的商业化闭环出谋划策。本周二，正式迎来了第一次主题为《MatrixOne 当前进展及 2023 年展望》的线上研讨会，我们邀请了数十位来自工业、建筑、科技、互联网等行业的伙伴，与 MatrixOrigin 产研团队进行了一次深入的交流与探讨。本篇文章将会对研讨会的核心要点进行总结。 Key Takeaways 新基础设施和新应用类型带来了国内外数据库的革新需求，新的拐点已经到来； MatrixOne 内核已基本完成整体架构搭建，将于 2023 年中期推出正式商业...

2023-03-06

996

摘要：洞悉华为云数字化差旅App的架构变迁之路，体验混合开发魅力。本文分享自华为云社区《DTSE Tech Talk 第21期丨从原生迈向混合，小而美团队如何搞定APP高效定制？》，作者：华为云社区精选。令开发者们心动的App端开发神器究竟长什么样？小而美的团队如何精准拿捏客户多元化定制需求，实现高效开发？在企业通用服务类App中，如何瞄准团队定位，快速engage客户？近日，华为云DTSE技术布道师徐意带来了《揭秘华为云数字化差旅：如何用混合开发玩转高效定制》的主题分享。徐意与开发者们交流了华为云数字化差旅移动端APP从原生框架到混合开发的演进过程，以及如何通过React Native及Hybrid混合开发框架去提升开发效率，解决企业客户多样的定制化诉求，让开发者对混合框架的选择及可能解决的场景有一定的了解和认识。此外，针对中小企业混合开发实践，徐意也从团队定位、研发投入及生态构建等视角给予了专业的建议。华为云数字化差旅，源于华为18年差旅管理实践，定位于企业差旅管理市场。依托“全场景、全流程、全数据”的建设思路，通过搭建一体化的数字化差旅管理平台，为客户提供从差旅申请...

2023-03-07

544

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。