MMDetection: 开源检测工具箱和基准【PyTorch】

2024-04-06 05:42•mysql•阅读 4952

由香港中文大学、浙江大学、悉尼大学等众多大学共同发表的MMDetection: Open MMLab Detection Toolbox and Benchmark中为了提供高质量的代码库和统一的基准，提出了MMDetection目标检测工具箱，它包含了丰富的目标检测和实例分割方法以及相关的组件和模块。

它不仅包括训练和推理代码，而且还提供了200多个模型的权值。是目前为止最完整的检测工具箱。此外他们还对不同的方法、组件及其超参数进行了基准测试研究。他们希望工具箱和基准能够通过提供一个灵活的工具箱来重新实现现有的方法并开发自己的新检测器，从而为不断增长的研究社区提供服务。

目标检测和实例分割都是基本的计算机视觉任务。检测框架的管道通常比分类类任务更复杂，不同的实现设置可能导致非常不同的结果。

MMDetection的主要特点是:

(1)模块化设计。我们将检测框架分解为不同的组件，通过组合不同的模块可以很容易地构建定制的对象检测框架。

(2)支持多框架开箱即用。工具箱支持流行的和现代的检测框架，完整的列表见第2节。

(3)效率高。所有基本的bbox和mask操作都在gpu上运行。训练速度比其他代码库(包括Detectron[10]、maskrcnn-benchmark[21]和SimpleDet[6])更快或者等同的。

(4)技术水平。这个工具箱来自于MMDet团队开发的代码库，他们在2018年赢得了COCO检测挑战，我们一直在推动它向前发展。

除了介绍代码基和基准测试结果之外，我们还报告了我们训练目标检测器的经验和最佳实践。对超参数、结构和训练策略进行了消融实验（有些像控制变量法）。我们希望本研究能对未来的研究有所帮助，并有助于不同方法之间的比较。

文章先介绍了各种支持的方法，重点介绍了MMDetection的重要特性，然后给出了测试结果。

支持框架

Single-stage Methods

方法	提出时间	特性
SSD	2015	经典而广泛使用的单级探测器，具有简单的模型结构
RetinaNet	2017	具有Focal Loss(聚焦损失)的高性能单级探测器
GHM	2019	用来改进单级检波器的梯度协调机制
FCOS	2019	全卷积anchor-free（无锚框）单级检波器
FSAF	2019	用于单级探测器的特征选择anchor-free（无锚框）模块

Two-stage Methods

方法	提出时间	特性
Fast R-CNN	2015	一个经典的目标探测器，需要预先计算的proposals
Faster R-CNN	2015	一个经典和广泛使用的两级目标探测器，可以端到端训练
R-FCN	2016	一个比R-CNN更快的全卷积目标检测器
Mask R-CNN	2017	一个经典和广泛使用的对象检测和实例分割方法
Grid R-CNN	2018	一个网格引导的定位机制，作为边界框回归的替代
Mask Scoring R-CNN	2019	通过预测mask IoU的改进的Mask R-CNN
Double-Head R-CNN	2019	用于分类和定位的不同heads

Multi-stage Methods

方法	提出时间	特性
Cascade R-CNN	2017	一个强大的多级目标检测方法
Hybrid Task Cascade	2019	一种多阶段多分支对象检测和实例分割方法

通用模块和方法

方法	提出时间	特性
Mixed Precision Training	2018	使用半精度浮点数(FP16)训练深度神经网络
Soft NMS	2017	NMS的替代品
OHEM	2016	一种在线抽样方法，挖掘硬样本用于训练
DCN	2017	可变型卷积和可变型ROI池化
DCNv2	2018	modulated deformable operators调整的变性操作
Train from Scratch	2018	训练由随机初始化代替ImageNet预训练
ScratchDet	2018	另一个关于从零开始训练的探索
M2Det	2018	提出新的特征金字塔网络，以构建更有效的特征金字塔
GCNet	2019	全局上下文块，可以有效地对全局参数进行建模
Generalized Attention	2019	通用注意公式
SyncBN		跨gpu的同步批处理规范化，我们采用了PyTorch的官方实现。
Group Normalization	2018	BN的简单替代品
Weight Standardization	2019	对卷积层的权值进行标准化，进行微批量训练
HRNet	2019	一个新的骨干，重点学习可靠的高分辨率表示
Guided Anchoring	2019	一种新的锚定方案，可以预测稀疏和任意形状的锚
Libra R-CNN	2019	一个新的框架面向平衡学习的目标检测

3.结构

模型的表示

虽然不同检测器的模型架构不同，但是它们有共同的组件，这些组件可以大致归纳为以下几个类

Backbone 主干是将图像转换成特征图的部分，例如没有最后一个完全连接层的ResNet-50。

Neck 脖子是连接脊柱和头部（backbone and heads）的部分。它对主干生成的原始特征图执行一些细化或重新配置。以特征金字塔网络(FPN)为例。

DenseHead (AnchorHead/AnchorFreeHead) DenseHead是对feature map的密集位置进行操作的部分，包括AnchorHead和AnchorFreeHead。e.g., RPNHead,RetinaHead, FCOSHead.

RoIExtractor RoIExtractor是使用类似于RoI Pooling 的操作从单个或多个feature map中提取RoIwise特征的部分。一个从相应层次特征金字塔中提取RoI特征的例子是SingleRoIExtractor。

RoIHead (BBoxHead/MaskHead)RoIHead是将RoI特性作为输入进行RoI-wise特定任务预测的部分,如bounding box classification/regression, mask prediction。

通过上述抽象，单级和两级检测器的框架如图1所示。我们可以通过简单地创建一些新组件和组装现有组件来开发自己的方法。

MMDetection: 开源检测工具箱和基准【PyTorch】

Training Pipeline

我们设计了统一的具有hooking机制的训练Pipeline。该训练管道不仅可以用于目标检测，还可以用于图像分类、语义分割等计算机视觉任务。许多任务的培训过程共享一个类似的工作流，其中Train epochs训练期和validation epochs验证期迭代运行，验证期是可选的。在每个epoch中，我们通过多次迭代对模型进行forward前进和backward后退。为了使管道更加灵活和易于定制，我们定义了一个最小管道，它只是重复地前向传播模型。其他行为由hook机制定义。为了运行自定义培训流程，我们可能需要在某些特定步骤之前或之后执行一些自定义操作。

我们定义了一些用户可以注册任何可执行方法(hook)的时间点，包括before run, before train epoch, after train epoch,

before train iter, after train iter, before val epoch, afterval epoch, before val iter, after val iter, after run。已注册的hook在指定的时间点按优先级触发。一个典型的MMDetection训练管道如图2所示。由于在每一个训练epoch结束后使用evaluation hooks来测试模型表现，所以在图中没有显示validation epoch，如果要定义的话，跟训练epoch一样。

MMDetection: 开源检测工具箱和基准【PyTorch】

其余内容请参见论文

上一篇 »web安全攻防笔记
下一篇 »阿里开源Java诊断工具神器使用及场景详解

MMDetection: 开源检测工具箱和基准【PyTorch】

支持框架

Single-stage Methods

Two-stage Methods

Multi-stage Methods

通用模块和方法

3.结构

模型的表示

Training Pipeline

相关推荐

Atitit 提升开发效率 简化设计工具箱 vs 问题诊断 目录 1. 语言类类tool内嵌脚本解释器1 1.1. 脚本语言 php nodejs python1 1.2. Sql1 2. D

javaScript知识体系，中- DOM、BOM、其它内置对象-总结

C#/ASP.NET/Javascript/SQL面试题

内存泄漏检测工具，操作系统包括linux, windows, 语言包括c++和java, javascript等

php代码不开源下的一种漏洞检测思路

Deap: python中的遗传算法工具箱

JAVA内存泄露检测工具如何使用？

Keras vs PyTorch：谁是第一深度学习框架？

Atitit 提升开发效率简化设计工具箱 vs 问题诊断目录 1. 语言类类tool内嵌脚本解释器1 1.1. 脚本语言 php nodejs python1 1.2. Sql1 2. D