使用多尺度空间注意力的语义分割方法

2020-08-12 797

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Abhinav Sagar

编译：ronghuaiyang

导读

用于自动驾驶的新的state of the art的网络。

本文提出了一种新的神经网络，利用不同尺度的多尺度特征融合来实现精确高效的语义分割。

重点

我们在下采样部分使用了膨胀卷积层，在上采样部分使用了转置卷积层，并在concat层中对它们进行拼接。
alternate blocks之间有跳跃连接，这有助于减少过拟合。
我们对我们的网络训练和优化细节进行了深入的理论分析。
我们在Camvid数据集上使用每个类的平均精度和IOU作为评价指标来评估我们的网络。
我们的模型在语义分割上优于之前的state of the art网络，在超过100帧每秒的速度下，平均IOU值为74.12。

语义分割

语义分割需要对输入图像的每个像素预测一个类，而不是对整个输入图像进行分类。为了预测图像中每个像素的内容，分割不仅需要找到输入图像中的内容，还需要找到它的位置。语义分割在自动驾驶、视频监控、医学影像等方面都有应用。这是一个具有挑战性的问题，因为要在准确性和速度之间进行权衡。由于模型最终需要在现实环境中部署，因此精度和速度都应该很高。

数据集

在训练和评估中使用了CamVid数据集。数据集提供了ground truth标签，将每个像素与32个类中的一个相关联。图像大小为360×480。数据集的ground truth样本图像如图1所示：

图1：来自数据集图像的Ground truth

将原始图像作为ground truth。对于任何算法，总是在与ground truth数据的比较中进行指标的评估。在数据集和测试集中提供ground truth信息用于训练和测试。对于语义分割问题，ground truth包括图像、图像中目标的类别以及针对特定图像中每个目标的分割掩模。对于图2中的12个类别，这些图像分别以二进制格式显示：

图2：图像转换为二进制类掩模

这些类别为：Sky, Building, Pole, Road, Pavement, Tree, SignSymbol, Fence, Car, Pedestrian 和 Bicyclist.

网络结构

对网络结构的解释如下：

我们将原来360×480像素的图像调整为224×224像素。
我们将数据集分成两个部分，训练集中有85%的图像，测试集中有15%的图像。
使用的损失函数是分类交叉熵。
我们用扩张卷积来代替下采样层中的普通卷积层这是用来减少特征图的，用转置卷积来代替上采样层中的普通卷积层来恢复特征。
我们在图层之间使用concat操作来合并不同尺度的特征。
对于convolutional layer我们没有使用任何padding，使用3 * 3 filter，并且使用relu作为激活函数。对于最大池化层，我们使用2×2的过滤器和2×2的步长。
我们使用VGG16作为训练模型的预训练主干。
在最后一层使用Softmax作为激活函数，输出一个物体是否存在于一个特定像素位置的离散概率。
我们使用adam作为优化器。
为了避免过拟合，我们使用了我们认为最优的batch size值4。

本工作中使用的网络结构图3所示：

图4：我们的网络结构

优化

假设给定一个局部特征C，我们将其输入一个卷积层，分别生成两个新的特征图B和C。对A与B的转置进行矩阵乘法，应用softmax层计算空间注意力图，定义如下式：

我们在X和A的转置之间进行矩阵乘法并reshape它们的结果。然后将结果乘以一个尺度参数β，并与A进行元素和运算，得到最终的输出结果如下式所示：

由上式可知，得到的各通道特征是各通道特征的加权和，并模拟了各尺度特征图之间的语义依赖关系。主干网络以及子阶段聚合方法可表示为：

这里i指的是stage的索引。

实验

池化层的数量对IOU的影响如表2所示。

模型架构中使用的分支数和融合方法对IOU的影响如表3所示。

模型训练了40个epoch，训练的平均像素精度为93%，验证的平均像素精度为88%。损失和像素级精度(训练和测试)被绘制成epoch的函数，如图4所示：

图4：a) Loss vs epochs b) Accuracy vs epochs

评估指标

对于评价，使用了以下两个指标：

1、每个类的平均精度：这个度量输出每个像素的类预测精度。

2、平均IOU：它是一个分割性能参数，通过计算与ground truth掩模之间的交集和并集的比来度量两个目标之间的重叠率。

按类别计算IOU值的方法如下所示。

其中TP为真阳性，FP为假阳性，FN为假银性，IOU表示交并比。

结果

使用多个block、FLOPS和参数对IOU的影响如表5所示。在这里，FLOPS和参数是我们的模型架构所需要的计算量的度量。

表6中显示了之前的stage和我们的模型结构所实现的FPS和IOU的比较分析。

将预测的分割结果与来自数据集的ground truth图像进行比较，结果如图5所示。

图5：预测图像的结果 —— 第一列来自dataset的原始图像，第二列来自network的预测图像，第三列来自dataset的ground truth图像

总结

本文提出了一种基于多尺度关注特征图的语义分割网络，并对其在Camvid数据集上的性能进行了评价。我们使用了一个下采样和上采样结构，分别使用了扩展卷积和转置卷积层，并结合了相应的池化层和反池化层。我们的网络在语义分割方面的表现超过了以往的技术水平，同时仍能以100帧每秒的速度运行，这在自动驾驶环境中非常重要。

论文地址：https://abhinavsagar.github.io/files/sem_seg.pdf

代码：https://github.com/abhinavsagar/mssa

—END—

英文原文：https://towardsdatascience.com/semantic-segmentation-with-multi-scale-spatial-attention-5442ac808b3e

请长按或扫描二维码关注本公众号

喜欢的话，请给我个好看吧！

本文分享自微信公众号 - AI公园（AI_Paradise）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/1416903/blog/4487088

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

nodejs多线程的探索和实践

1 背景需求中有以下场景1 对称解密、非对称解密2 压缩、解压3 大量文件的增删改查4 处理大量的字符串，解析协议上面的场景都是非常耗时间的，解密、压缩、文件操作，nodejs使用了内置的线程池支持了异步。但是处理字符串和解析协议是单纯消耗cpu的操作。而且nodejs对解密的支持似乎不是很好。我使用了纯js的解密库，所以无法在nodejs主线程里处理。尤其rsa解密，非常耗时间。所以这时候就要探索解决方案，nodejs提供了多线程的能力。所以自然就选择了这种方案。但是这只是初步的想法和方案。因为nodejs虽然提供了多线程能力，但是没有提供一个应用层的线程池。所以如果我们单纯地使用多线程，一个请求一个线程，这显然不现实。我们不得不实现自己的线程池。本文分享的内容是这个线程池的实现。线程池的设计涉及到很多方面，对于纯cpu型的任务，线程数和cpu核数要相等才能达到最优的性能，否则过多的线程引起的上下文切换反而会导致性能下降。而对于io型的任务，更多的线程理论上是会更好，因为可以更早地给硬盘发出命令，磁盘会优化并持续地处理请求，想象一下，如果发出一个命令，硬盘处理一个，然后再发下一...

2020-08-12

726

我们曾经研究过如何让Python和Go互相调度，当时发现，将Go语言写的模块打包成动态链接库，就能在Python中进行调度：优劣互补! Python+Go结合开发的探讨 Go的优势很明显，从1亿减到1，在我的设备上测试，用Go运行只需要50ms，Python可能需要接近100倍的时间。但是，这种写法也有缺点：实在太麻烦了，大大增加了整个项目的耦合性。那Python中有没有办法不通过打包成动态链接库的方法，用Python调度Go的任务呢？答案是Go celery. https://github.com/gocelery/gocelery 我们可以用Go写一个计算密集型任务的Worker，然后用Python的Celery beat来调度这个Worker，下面给大家演示一下： 1.编写Go Worker 最好是将计算密集型的任务改造成Go语言版的，这样收益才能最大化。比如这里，我使用的是上回从1亿减到1的老梗。 PS，别被下面这段代码吓到了，其实大部分是可以去掉的配置项，核心代码就几行。输入命令： go run main.go 即可运行该worker 2.编写Python客户端每...

2020-08-12

922

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。