SSFENet | 增强空间和语义特征用于目标检测

发布人：CV研究院时间：2022-07-23 来源：工程师发布文章

简要

目前最先进的目标检测器通常使用预先训练好的分类网络来提取特征，然后利用特征金字塔来检测不同尺度的目标。然而，分类网络更喜欢平移不变性，而忽略了位置信息，因此直接使用提取的特征进行融合会影响性能。

在今天分享中，研究者提出了一个新的网络来解决这个困境，即空间和语义特征增强网络(SSFENet)。首先，引入了空间特征增强块来利用空洞卷积和加权特征融合来增强特征中的空间信息。其次，在低级阶段，框架中的语义特征增强块利用高级阶段的主干网络来获得具有更丰富语义信息的特征，并且由于使用了共享的卷积层，只引入了很少的计算成本。在MS-COCO基准测试上的实验结果表明，该SSFENet显著提高了常用目标探测器的MAP性能。

简单背景介绍

Two-stage：

对于Two-stage的目标检测网络，主要通过一个卷积神经网络来完成目标检测过程，其提取的是CNN卷积特征，在训练网络时，其主要训练两个部分，第一步是训练RPN网络，第二步是训练目标区域检测的网络。网络的准确度高、速度相对One-stage慢。

One-stage：

直接通过主干网络给出类别和位置信息，没有使用RPN网路。这样的算法速度更快，但是精度相对Two-stage目标检测网络了略低。

目前常用的典型的One-stage目标检测网络

YOLOv1、YOLOv2、YOLOv3
SSD、DSSD等
Retina-Net等

Feature enhancement：

Feature Enhancement Network: A Refined Scene Text Detector

地址:https://arxiv.org/abs/1711.04249

新框架

Spatial Feature Enhancement Block

大多数最先进的目标检测器都使用预先训练好的分类网络来提取特征。然而，分类网络在前几个卷积层之后进行多个下采样。此操作将丢失目标检测所必需的位置信息。直接的解决方案不执行下采样，但这将大大增加内存和计算成本，并且需要重新设计主干网络。

新出了一种有效的空间特征增强(SpaFE)块来扩展感受野，并了解不同感受野的重要性，如上图所示。首先，SpaFE块采用多分支形式来提取具有不同感受野的特征，每个分支都使用具有不同扩张率的空洞卷积。其次，SpaFE块使用元素级添加而不是连接，这将减少一些计算开销。此外，由不同感受野提取的特征的重要性是不相同的，即不同分支的输入对输出的贡献并不平等。为了解决这个问题，研究者为每个输入引入了一个额外的权重，并让网络了解每个分支的重要性。研究者使用快速标准化的融合：