大话目标检测经典模型：Mark R-CNN

2023-11-07 07:13•Android•阅读 3691

2019独角兽企业重金招聘Python工程师标准>>> 大话目标检测经典模型：Mark R-CNN

大话目标检测经典模型：Mark R-CNN

在之前的文章中介绍了目标检测经典模型（R-CNN、Fast R-CNN、Faster R-CNN），目标检测一般是为了实现以下效果：

大话目标检测经典模型：Mark R-CNN

在R-CNN、Fast R-CNN、Faster R-CNN中，实现了对目标的识别和定位，如下图所示：

大话目标检测经典模型：Mark R-CNN

为了更加精确地识别目标，实现在像素级场景中识别不同目标，利用“图像分割”技术定位每个目标的精确像素，如下图所示（精确分割出人、汽车、红绿灯等）：

大话目标检测经典模型：Mark R-CNN

Mask R-CNN便是这种“图像分割”的重要模型。

Mask R-CNN的思路很简洁，既然Faster R-CNN目标检测的效果非常好，每个候选区域能输出种类标签和定位信息，那么就在Faster R-CNN的基础上再添加一个分支从而增加一个输出，即物体掩膜（object mask），也即由原来的两个任务（分类+回归）变为了三个任务（分类+回归+分割）。如下图所示，Mask R-CNN由两条分支组成：

大话目标检测经典模型：Mark R-CNN

Mask R-CNN的这两个分支是并行的，因此训练简单，仅比Faster R-CNN多了一点计算开销。

分类和定位在Faster R-CNN中有介绍过了（详见文章：大话目标检测经典模型RCNN、Fast RCNN、Faster RCNN），在此就不再重复介绍，下面重点介绍一下第二条分支，即如何实现像素级的图像分割。

如下图所示，Mask R-CNN在Faster R-CNN中添加了一个全卷积网络的分支（图中白色部分），用于输出二进制mask，以说明给定像素是否是目标的一部分。所谓二进制mask，就是当像素属于目标的所有位置上时标识为1，其它位置标识为 0

大话目标检测经典模型：Mark R-CNN

从上图可以看出，二进制mask是基于特征图输出的，而原始图像经过一系列的卷积、池化之后，尺寸大小已发生了多次变化，如果直接使用特征图输出的二进制mask来分割图像，那肯定是不准的。这时就需要进行了修正，也即使用RoIAlign替换RoIPooling

大话目标检测经典模型：Mark R-CNN

如上图所示，原始图像尺寸大小是128x128，经过卷积网络之后的特征图变为尺寸大小变为 25x25。这时，如果想要圈出与原始图像中左上方15x15像素对应的区域，那么如何在特征图中选择相对应的像素呢？

从上面两张图可以看出，原始图像中的每个像素对应于特征图的25/128像素，因此，要从原始图像中选择15x15像素，则只需在特征图中选择2.93x2.93像素（15x25/128=2.93），在RoIAlign中会使用双线性插值法准确得到2.93像素的内容，这样就能很大程度上，避免了错位问题。

修改后的网络结构如下图所示（黑色部分为原来的Faster R-CNN，红色部分为Mask R-CNN修改的部分）

大话目标检测经典模型：Mark R-CNN

从上图可以看出损失函数变为

大话目标检测经典模型：Mark R-CNN

损失函数为分类误差+检测误差+分割误差，分类误差和检测（回归）误差是Faster R-CNN中的，分割误差为Mask R-CNN中新加的。

对于每个MxM大小的ROI区域，mask分支有KxMxM维的输出（K是指类别数量）。对于每一个像素，都是用sigmod函数求二值交叉熵，也即对每个像素都进行逻辑回归，得到平均的二值交叉熵误差Lmask。通过引入预测K个输出的机制，允许每个类都生成独立的mask，以避免类间竞争，这样就能解耦mask和种类预测。

对于每一个ROI区域，如果检测得到属于哪一个分类，就只使用该类的交叉熵误差进行计算，也即对于一个ROI区域中KxMxM的输出，真正有用的只是某个类别的MxM的输出。如下图所示：

大话目标检测经典模型：Mark R-CNN