Enriched Feature Guided Refinement Network for Object Detection，面向目标检测的丰富特征引导细化网络

2024-03-30 01:35•css•阅读 4624

Jing Nie1∗ †, Rao Muhammad Anwer2∗, Hisham Cholakkal2, Fahad Shahbaz Khan2

Yanwei Pang1‡, Ling Shao2

1School of Electrical and Information Engineering, Tianjin University

2Inception Institute of Artificial Intelligence (IIAI), UAE

1{jingnie,pyw}@tju.edu.cn,

2{rao.anwer, hisham.cholakkal, fahad.khan, ling.shao}@inceptioniai.org

我们提出了一个单阶段检测框架，共同解决多尺度目标检测和类不平衡的问题。我们没有设计更深层的网络，而是引入了一个简单而有效的特征丰富方案来产生多尺度的上下文特征。我们进一步提出了一种级联改进方案，该方案首先在单级检测器的预测层中加入多尺度上下文特征，以增强其对多尺度检测的分辨能力。第二，级联细化方案通过细化锚和丰富特征来改善分类和回归，解决了类不平衡问题。实验在两个基准上进行：PASCAL VOC和MS COCO。对于MS COCO测试设备上的320×320输入，我们的探测器在单尺度推断的情况下达到了最先进的单级检测精度，COCO AP为33.2，而在Titan XP GPU上以21毫秒的速度运行。对于MS-COCO测试dev上的512×512输入，我们的方法获得的COCO-AP绝对增益为1.6%，与最好的单级结果相比[5]。源代码和模型可从以下网址获得：https://github.com/Ranchentx/EFGRNet

摘要提出了一种单级检测框架，解决了多尺度目标检测和类不平衡的问题。我们没有设计更深层的网络，而是引入了一个简单而有效的特征丰富方案来产生多尺度的上下文特征。我们进一步提出了一种级联改进方案，该方案首先在单级检测器的预测层中加入多尺度上下文特征，以增强其对多尺度检测的分辨能力。第二，级联细化方案通过细化锚和丰富特征来改善分类和回归，解决了类不平衡问题。实验在两个基准上进行：PASCAL VOC和MS COCO。对于MS COCO测试设备上的320×320输入，我们的探测器在单尺度推断的情况下达到了最先进的单级检测精度，COCO AP为33.2，而在Titan XP GPU上以21毫秒的速度运行。对于MS-COCO测试dev上的512×512输入，我们的方法获得的COCO-AP绝对增益为1.6%，与最好的单级结果相比[5]。源代码和模型可从以下网址获得：https://github.com/Ranchentx/EFGRNet。

一。介绍

目标检测是一个活跃的研究课题，在现实世界中有着广泛的应用。基于卷积神经网络（CNNs）的现代目标检测方法可分为两类：（1）两阶段方法[33,23]，（2）单阶段方法[27,32]。两阶段方法首先生成目标建议，然后对这些建议进行分类和回归。单阶段方法直接在输入图像上通过规则和密集的采样网格对目标进行定位。与单阶段方法相比，相应的作者项目检测器具有更精确的优点。另一方面，与两级检测器相比，单级方法具有时间计算效率，但在性能上存在折衷[19]。在这项工作中，我们研究了在一个单阶段框架中的通用对象检测问题。近年来，各种单级目标检测方法相继推出[27、32、41、24]。在现有的单级目标检测器中，单镜头多盒检测器（SSD）[27 ]由于其改进的检测性能和高速的综合优点而最近获得了普及。标准SSD框架利用一个基本网络（例如VGG）并在截断的基本网络的末尾添加一系列卷积层。增加的卷积层和一些不同分辨率的早期基础网络层都被用来进行独立预测。在标准SSD中，每个预测层侧重于预测特定规模的对象。它采用金字塔特征层次结构，其中浅层或前层以小目标为目标，而深层或后层以检测大目标为目标。SSD虽然具有较高的计算效率，但在检测精度上仍落后于大多数现代两级检测器。在这项工作中，我们区分了两个阻碍标准固态硬盘探测器在保持其标志性速度的情况下达到实时精度的关键障碍。首先，标准SSD难以处理大规模变化[1]。这可能是由于SSD预测层中的固定上下文信息造成的。现有的方法解决了这个问题，例如，添加上下文信息连同更深的骨干模型[13 ]和特征金字塔表示[41, 24, 4，30 ]。大多数方法[41，24，4]采用自顶向下的金字塔表示，其中深层的低分辨率特征映射首先被上采样，然后与浅层的高分辨率特征映射相结合，以注入高层语义信息。虽然这样的特征金字塔表示有助于解决大规模变化，但性能仍然远远不能令人满意。

第二个关键问题是在训练固态硬盘探测器时遇到的地面背景类9537不平衡问题。对这个问题的现有解决方案[24, 41 ]包括，例如，对一组稀疏的硬示例进行训练，同时向下加权良好分类的示例，并结合两步锚细化策略，通过去除负锚来减少分类器的搜索空间。尽管取得了成功，但[41]的工作采用了自上而下的特征金字塔表示，并且只对锚进行了优化，因为锚的特征与优化后的锚不太一致。在这项工作中，我们寻找一种替代的方法来共同解决多尺度目标检测和类不平衡的问题，以提高SSD的精度而不牺牲其特征速度。贡献：我们再次访问标准SSD框架，共同解决多尺度目标检测和类不平衡问题。首先，我们引入了一种特征丰富方案来提高标准SSD中预测层的识别能力。我们的特征丰富方案不是深化主干模型，而是设计来产生多尺度的上下文特征。我们进一步引入了一个具有双重目标的级联优化方案。首先，它将多尺度的上下文特征嵌入到标准的dpredictionlayersinbottomuppyramidal特征层次中。由此得到的丰富特征对尺度变化更为稳健。其次，利用丰富的特征进行类不可知分类和边界盒回归以实现精确定位，解决了类不平衡问题。然后，利用初始盒回归和二元分类进一步细化相关的丰富特征，得到最终的分类得分和边界盒回归。我们对具有挑战性的基准进行了全面的实验：PASCAL VOC 2007[12]和MS COCO[25]。我们的检测器取得了优于现有的单阶段方法在两个数据集的结果。对于MS-COCO测试集上的512×512，我们的检测器在COCO-AP方面比具有相同主干（VGG）的RefineDet[41]高4.5%，而在Titan XP GPU上以39毫秒（MS）的推断时间工作。

物体检测[33，27，7，28，35]是一个具有挑战性和主动性的计算机视觉问题。基于卷积神经网络（CNNs）[36，18，9，38，29，37]的目标检测器[14，15，32，17，33，8，27，2]近年来取得了显著的效果。这项工作的重点是单级目标探测器[32，27]，它们通常比两级探测器更快。在现有的单级方法中，SSD〔27〕已显示出在实时操作时提供优异的性能。它使用多尺度表示来检测金字塔层次结构中的对象。在这种层次结构中，浅层有助于预测较小的对象，而深层有助于检测较大的对象。我们的方法基于标准的固态硬盘，因为它的高精度和高速。单级探测器，如SSD，难以精确地探测到具有显著尺度变化的物体。此外，SSD检测器还存在类不平衡问题。文献[13, 3, 6，42 ]中的现有方法通过利用上下文信息、更好的特征提取或自顶向下特征金字塔表示来解决第一个问题。一种流行的策略是构建一个自顶向下的特征金字塔表示，将高层语义信息从较深层注入到信息有限的浅层[24，4]。文献[30]提出了一种基于图像金字塔的特征金字塔构造方法，称之为特征图像金字塔。相比之下，我们的方法不需要任何特征化的图像金字塔或自顶向下的金字塔结构，而是侧重于捕获多尺度的上下文信息。此外，我们的方法包含一个专用模块来解决类不平衡问题。[6]的工作是通过一个多变形头部来研究上下文的集成，并使用盒回归（位置和比例偏移）来细化特征。相反，我们从两个方面提高标准SSD预测层的区分能力。首先，我们介绍了一个从多分支ResNeXT体系结构[39，31]中获得灵感的特性丰富方案，该方案生成多尺度上下文特性，以使用上下文信息丰富标准SSD特性。其次，我们引入了一个级联的细化方案，其中盒回归和二元分类都被用来细化特征。二进制分类（对象类别预测）用于生成突出显示可能的对象位置的对象映射。在特征优化过程中，仅使用位置偏移与优化的定位点对齐特征，而忽略比例偏移。为了解决训练阶段的等级不平衡问题，RetinaNet[24]引入了焦点损失来降低简单样本的贡献。RefineDet[41]提出了一个两步锚细化模块，通过去除几个负锚来减少分类器的搜索空间。此外，锚细化模块粗略地调整锚的位置。与文献[41]不同，我们的级联改进方案首先将多尺度上下文信息注入标准SSD预测层，从而利用丰富的特征。此外，级联优化移除了几个负锚定，不仅优化了锚定位置，还优化了特征。

我们的检测框架由三部分组成：标准SSD层、特征丰富（FE）方案和级联细化方案。我们的FE计划（第。3.1）包含一个多尺度上下文特征模块（MSCF），用于处理尺度变化。有限元格式产生多个缩放上下文特征以提高标准SSD预测层的区分能力。级联优化方案（第。3.2）利用多尺度上下文和标准SSD特性，解决类不平衡问题。级联细化方案通过对两个级联模块（对象模块（OM）和特征引导细化模块（FGRM））分别进行盒回归和分类，细化锚和特征。objectness模块（OM）执行对象与背景的二元分类以及初始的box回归。然后，FGRM模块细化特征和锚定位置，以预测最终的多类分类和边界框定位。

图1示出了当使用VGG作为骨干网络时，我们的框架的总体架构，如[27]。在[41]之后，我们只使用四个预测层（conv4 3、f c7、conv8 2、conv9 2）进行检测，而不是原始SSD中使用的六个层。将预测层增加到4层以上并不能提高我们的性能。

在标准SSD框架中，从深卷积网络骨干网（例如VGG16或ResNet）中的特征提取通过卷积和最大池操作的重复过程来执行。尽管保留了一定程度的语义信息，但它们仍然丢失了有助于区分目标区域和背景区域的低级特征信息。此外，在每个预测层的恒定接收场仅捕获固定的上下文信息。在这项工作中，我们引入了一个特征丰富（FE）方案来捕捉多尺度的上下文信息。我们首先使用一个简单的池操作对输入图像进行下采样，以使其大小与第一个SSD预测层的大小相匹配。然后，下采样图像通过我们的多尺度上下文特征（MSCF）模块。多尺度上下文特征模块：在图1（b）中，用蓝色虚线框突出显示所提议的MSCF模块。它是一个简单的模块，由几个卷积操作组成，并产生多尺度的上下文特征。MSCF模块的结构灵感来源于多分支ResNeXT体系结构[39，31]，是一种分裂、转换和聚合策略的操作。MSCF模块以降采样图像作为输入，输出增强的多尺度特征。下采样图像首先通过大小为3×3和1×1的两个连续卷积层，产生初始特征投影。然后，通过1×1卷积层将这些特征投影分割成三维低维分支。为了捕获多尺度上下文信息，我们使用三个扩张卷积[40]，对于不同的分支，扩张率分别设置为1、2和4。扩展卷积运算将初始特征投影转换为上下文增强的9539特征集。然后，这些转换后的特征通过级联操作聚合并传递到1×1卷积操作。MSCF的输出用于我们的级联优化方案的对象模块（OM）。

3.2条。级联求精方案我们的求精方案由两个级联模块组成：目标模块和特征引导求精模块（FGRM），如图1（a）所示。对象模块通过多尺度上下文信息和可识别的对象位置（objectness）来丰富SSD特性。利用多尺度上下文信息丰富特征可以提高小对象的性能，而在FGRM中使用对象预测来解决类不平衡问题。对象模块：对象模块首先通过元素乘法操作，从conv4 3的MCSF模块中注入多尺度上下文特征，从而丰富SSD特性。然后，如图1（a）所示，我们引入自下而上的金字塔特征层次来将丰富的特征传播到随后的SSD预测层。对象模块采用3×3卷积运算，步长为2（D），将前一层的特征投影到与当前层的空间分辨率和通道数相匹配的位置。然后通过在每个预测层上执行投影特征和SSD特征之间的元素相乘来获得丰富的特征。最后，使用丰富的特征在每个预测层x处执行二元分类（C1x）和初始盒回归（B1x）。这里x＝1、2、3和4对应于四个预测层。图2示出了来自PASCAL VOC数据集的示例图像和来自标准SSD（第二列）、D（第三列）之后的多尺度上下文特征和丰富的特征（第四列）的对应f c7特征图。实例表明，利用多尺度上下文信息丰富标准SSD特性有助于更加关注包含对象实例的区域。在FGRM中进一步使用了从对象模块输出的二值分类c1xout，通过过滤掉大量的负锚来减少正锚和负锚之间的类不平衡。此外，C1xoutput还用于生成一个注意图，以引导丰富的特征在抑制背景的同时更加注意对象。在FGRM中还使用box回归B1xoutputs来优化特性和锚定位置。

Enriched Feature Guided Refinement Network for Object Detection，面向目标检测的丰富特征引导细化网络