基于Pytorch的动态卷积复现-低调大师

基于Pytorch的动态卷积复现

2020-09-08 555

【GaintPandaCV导语】最近动态卷积开始有人进行了研究，也有不少的论文发表（动态卷积论文合集https://github.com/kaijieshi7/awesome-dynamic-convolution），但是动态卷积具体的实现代码却很少有文章给出。本文以微软发表在CVPR2020上面的文章为例，详细的讲解了动态卷积实现的难点以及如何动分组卷积巧妙的解决。希望能给大家以启发。

这篇文章也同步到知乎平台，链接为：https://zhuanlan.zhihu.com/p/208519425

论文的题目为《Dynamic Convolution: Attention over Convolution Kernels》

paper的地址arxiv.org/pdf/1912.0345

代码实现地址，其中包含一维，二维，三维的动态卷积；分别可以用于实现eeg的处理，正常图像的处理，医疗图像中三维脑部的处理等等（水漫金山）。github.com/kaijieshi7/D，大家觉得有帮助的话，可以点个星星。

一句话描述下文的内容：将的大小视为分组卷积里面的组的大小进行动态卷积。如 ,那么就转化成，的分组卷积。

简单回顾

这篇文章主要是改进传统卷积，让每层的卷积参数在推理的时候也是随着输入可变的，而不是传统卷积中对任何输入都是固定不变的参数。（由于本文主要说明的是代码如何实现，所以推荐给大家一个讲解论文的连接：Happy：动态滤波器卷积｜DynamicConv)

对于卷积过程中生成的一个特征图，先对特征图做几次运算，生成个和为的参数，然后对个卷积核参数进行线性求和，这样推理的时候卷积核是随着输入的变化而变化的。(可以看看其他的讲解文章，本文主要理解怎么写代码)

下面是attention代码的简易版本，输出的是[ , ]大小的加权参数。对应着要被求和的卷积核数量。

class attention2d(nn.Module):
    def __init__(self, in_planes, K,):
        super(attention2d, self).__init__()
        self.avgpool = nn.AdaptiveAvgPool2d(1)
        self.fc1 = nn.Conv2d(in_planes, K, 1,)
        self.fc2 = nn.Conv2d(K, K, 1,)

    def forward(self, x):
        x = self.avgpool(x)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x).view(x.size(0), -1)
        return F.softmax(x, 1)

下面是文章中个卷积核求和的公式。

其中是输入，是输出；可以看到进行了两次运算，一次用于求注意力的参数（用于生成动态的卷积核），一次用于被卷积。

但是，写代码的时候如果直接将个卷积核求和，会出现问题。接下来我们先回顾一下Pytorch里面的卷积参数，然后描述一下可能会出现的问题，再讲解如何通过分组卷积去解决问题。

Pytorch卷积的实现

我会从维度的视角回顾一下Pytorch里面的卷积的实现（大家也可以手写一下，几个重点：输入维度、输出维度、正常卷积核参数维度、分组卷积维度、动态卷积维度、attention模块输出维度）。

输入：输入数据维度大小为[ , , , ]。

输出：输出维度为[ , , , ]。

卷积核：正常卷积核参数维度为[ , , , ]。（在Pytorch中，2d卷积核参数应该是固定这种维度的）

这里我们可以注意到，正常卷积核参数的维度是不存在的。因为对于正常的卷积来说，不同的输入数据，使用的是相同的卷积核，卷积核的数量与一次前向运算所输入的大小无关（相同层的卷积核参数只需要一份）。

可能会出现的问题

这里描述一下实现动态卷积代码的过程中可能因为大于1而出现的问题。

对于图中attention模块最后softmax输出的个数，他们的维度为[ , , , ]，可以直接.view成[ , ]，紧接着作用于卷积核参数上（形成动态卷积）。

问题所在：正常卷积，一次输入多个数据，他们的卷积核参数是一样的，所以只需要一份网络参数即可；但是对于动态卷积而言，每个输入数据用的都是不同的卷积核，所以需要份网络参数，不符合Pytorch里面的卷积参数格式，会出错。

看下维度运算[ , ]*[ , , , , ],生成的动态卷积核是[ , , , , ]，不符合Pytorch里面的规定，不能直接参与运算（大家可以按照这个思路写个代码看看，体会一下，光看可能感觉不出来问题），最简单的解决办法就是等于1，不会出现错误，但是慢啊！！！

总之，大于1会导致中间卷积核参数不符合规定。

分组卷积以及如何通过分组卷积实现大于1的动态卷积

一句话描述分组卷积：对于多通道的输入，将他们分成几部分各自进行卷积，结果concate。

组卷积过程用废话描述：对于输入的数据[ , , , ]，假设为，那么分组卷积就是将他分为两个为的数据（也可以用其他方法分），那么维度就是[ , 5x2 , , ]，换个维度换下视角，[ , , , ]，那么为2的组卷积可以看成的正常卷积。（如果还是有点不了解分组卷积，可以阅读其他文章仔细了解一下。）

巧妙的转换：上面将翻倍即可将分组卷积转化成正常卷积，那么反向思考一下，将变为1，是不是可以将正常卷积变成分组卷积？

我们将大小看成分组卷积中的数量，令所在维度直接变为！！！直接将输入数据从[ , , , ]变成[1, , , ]，就可以用分组卷积解决问题了！！！

详细描述实现过程：将输入数据的维度看成[1, , , ](分组卷积的节奏)；卷积权重参数初始化为[ , , , , ]，attention模块生成的维度为[ , ],直接进行正常的矩阵乘法[ , ]*[ , * * * ]生成动态卷积的参数，生成的动态卷积权重维度为[ , , , , ]，将其看成分组卷积的权重[ , , , ](过程中包含reshape)。这样的处理就完成了，输入数据[ , , , ]，动态卷积核[ , , , ]，直接是的分组卷积，问题解决。

具体代码如下：

class Dynamic_conv2d(nn.Module):
    def __init__(self, in_planes, out_planes, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, K=4,):
        super(Dynamic_conv2d, self).__init__()
        assert in_planes%groups==0
        self.in_planes = in_planes
        self.out_planes = out_planes
        self.kernel_size = kernel_size
        self.stride = stride
        self.padding = padding
        self.dilation = dilation
        self.groups = groups
        self.bias = bias
        self.K = K
        self.attention = attention2d(in_planes, K, )

        self.weight = nn.Parameter(torch.Tensor(K, out_planes, in_planes//groups, kernel_size, kernel_size), requires_grad=True)
        if bias:
            self.bias = nn.Parameter(torch.Tensor(K, out_planes))
        else:
            self.bias = None


    def forward(self, x):#将batch视作维度变量，进行组卷积，因为组卷积的权重是不同的，动态卷积的权重也是不同的
        softmax_attention = self.attention(x)
        batch_size, in_planes, height, width = x.size()
        x = x.view(1, -1, height, width)# 变化成一个维度进行组卷积
        weight = self.weight.view(self.K, -1)

        # 动态卷积的权重的生成， 生成的是batch_size个卷积参数（每个参数不同）
        aggregate_weight = torch.mm(softmax_attention, weight).view(-1, self.in_planes, self.kernel_size, self.kernel_size)
        if self.bias is not None:
            aggregate_bias = torch.mm(softmax_attention, self.bias).view(-1)
            output = F.conv2d(x, weight=aggregate_weight, bias=aggregate_bias, stride=self.stride, padding=self.padding,
                              dilation=self.dilation, groups=self.groups*batch_size)
        else:
            output = F.conv2d(x, weight=aggregate_weight, bias=None, stride=self.stride, padding=self.padding,
                              dilation=self.dilation, groups=self.groups * batch_size)

        output = output.view(batch_size, self.out_planes, output.size(-2), output.size(-1))
        return output

完整的代码在github.com/kaijieshi7/D，大家觉得有帮助的话，求点个星星。

纸上得来终觉浅，绝知此事要躬行。试下代码，方能体会其中妙处。

对文章有疑问或者想加入交流群，欢迎添加BBuf微信

为了方便各位获取公众号获取资料，可以加入QQ群获取资源，更欢迎分享资源

本文分享自微信公众号 - GiantPandaCV（BBuf233）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4580321/blog/4554349

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

flink实战-使用自定义聚合函数统计网站TP指标

背景自定义聚合函数实例讲解背景在网站性能测试中，我们经常会选择 TP50、TP95 或者 TP99 等作为性能指标。接下来我们讲讲这些指标的含义、以及在flink中如何实时统计： TP50，top percent 50，即 50% 的数据都满足某一条件； TP95，top percent 95，即 95% 的数据都满足某一条件； TP99，top percent 99，即 99% 的数据都满足某一条件；我们举一个例子，我们要统计网站一分钟之内的的响应时间的TP90,正常的处理逻辑就是把这一分钟之内所有的网站的响应时间从小到大排序，然后计算出总条数count，然后计算出排名在90%的响应时间是多少（count*0.9），就是我们要的值。自定义聚合函数这个需求很明显就是一个使用聚合函数来做的案例，Flink中提供了大量的聚合函数，比如count，max，min等等，但是对于这个需求，却无法满足，所以我们需要自定义一个聚合函数来实现我们的需求。在前段时间，我们聊了聊flink的聚合算子，具体可参考：flink实战-聊一聊flink中的聚合算子，聚合算子是我们在写代码的时候用...

2020-09-09

613

防抖（去抖），以及节流（分流）在日常开发中可能用的不多，但在特定场景，却十分有用。最近有同学遇到了要做防抖的需求，那今天李老师就来讲解一下，什么是防抖。为了方便查阅和让不了解防抖和节流的同学能针对性的学习，今天只讲解防抖的理解和实践，节流的内容放到下一次讲解。防抖有两种模式，延时执行和直接执行，这两种方式比较容易让人迷惑，后面我们慢慢讲。什么是防抖首先我们先看一个案例需求以日常开发中常用的搜索按钮为例，若用户点击一次搜索按钮后，不小心“手抖”很快又点了一次按钮，防抖可以规避第二次甚至更多次搜索。第一个搜索按钮未做任何防抖处理。搜索按钮A为第一种防抖模式：延时执行。若用户连续快速点击多次，只有最后一次点击结束，延时一段时间后才执行搜索。搜索按钮B为第二种防抖模式：直接执行。若用户连续快速点击多次，只有第一次点击会执行搜索。通过上面的案例需求来看，我们可以把防抖理解为：如果遇到多次触发事件，事件处理函数只执行一次。如何手写防抖我们理解了什么是防抖，那么我们接下来通过案例来讲一下实现防抖的思路。假设我们需要实现按钮A的延迟执行的防抖，我们首先需要整理思路： 1.点...

2020-09-09

768

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。