📜  卷积神经网络 |基于区域的 CNN

📅  最后修改于: 2022-05-13 01:55:06.316000             🧑  作者: Mango

卷积神经网络 |基于区域的 CNN

由于具有全连接层的卷积神经网络 (CNN) 无法处理出现频率和多对象。因此,一种方法可能是我们使用滑动窗口蛮力搜索来选择一个区域并在其上应用 CNN 模型,但这种方法的问题是同一对象可以在具有不同大小和不同方面的图像中表示比率。在考虑这些因素的同时,我们有很多区域建议,如果我们在所有这些区域上应用深度学习 (CNN),计算成本会很高。


R-CNN 架构

罗斯 Girshick 等人。 2013 年提出了一种称为 R-CNN(基于区域的 CNN)的架构来应对目标检测的这一挑战。这种 R-CNN 架构使用生成大约2000个区域建议的选择性搜索算法。然后将这2000个区域建议提供给计算 CNN 特征的 CNN 架构。然后将这些特征传递到 SVM 模型中,以对区域提议中存在的对象进行分类。一个额外的步骤是执行边界框回归器以更精确地定位图像中存在的对象。

区域提案:
区域提议只是图像的较小区域,可能包含我们在输入图像中搜索的对象。为了减少 R-CNN 中的区域提议,使用了一种称为选择性搜索的贪心算法。

使用选择性搜索生成区域建议(图片来源:

链接

选择性搜索:
选择性搜索是一种贪心算法,它结合较小的分割区域来生成区域建议。该算法将图像作为输入,输出在其上生成区域建议。与随机提案生成相比,该算法的优势在于它将提案的数量限制在大约2000个,并且这些区域提案具有很高的召回率。

算法:

  1. 生成输入图像的初始子分割。
  2. 递归地将相似的边界框组合成更大的边界框
  3. 使用这些较大的框来生成用于对象检测的区域建议。

在第 2 步中,基于颜色相似度、纹理相似度、区域大小等考虑相似度。我们在本文中详细讨论了选择性搜索算法。

R-CNN 的 CNN 架构:
之后,这些区域被扭曲成 CNN 模型所要求的单个正方形区域。我们这里使用的 CNN 模型是预训练的 AlexNet 模型,它是当时用于图像分类的最先进的 CNN 模型。我们在这里看看 AlexNet 的架构。

这里 AlexNet 的输入是(227, 227, 3) 。因此,如果区域提案大小不一,那么我们需要将该区域提案调整为给定尺寸。

从上述架构中,我们移除最后一个 softmax 层,得到(1, 4096)特征向量。我们将此特征向量传递给 SVM 和边界框回归器。

SVM(支持向量机):
然后由 CNN 生成的特征向量由在每个类上独立训练的二进制 SVM 消耗。该 SVM 模型采用先前 CNN 架构中生成的特征向量,并输出该区域中存在对象的置信度分数。然而,用 SVM 训练有一个问题是我们需要 AlexNet 特征向量来训练 SVM 类。因此,我们无法以并行方式独立训练 AlexNet 和 SVM。这一挑战在 R-CNN 的未来版本(Fast R-CNN、Faster R-CNN 等)中得到解决。

边界框回归器:
为了精确定位图像中的边界框,我们使用了一种称为边界框回归器的尺度不变线性回归模型。为了训练这个模型,我们将四个定位维度的预测和地面实况对作为。这些维度是(x, y, w, h) ,其中xy分别是边界框中心的像素坐标。 w 和 h 表示边界框的宽度和高度。这种方法将结果的平均精度 (mAP) 提高了3-4%

输出:
现在我们有了针对每个类别标签进行分类的区域建议。为了处理上述模型生成的额外边界框进入图像,我们使用了一种称为非最大抑制的算法。
它分三个步骤工作:

  • 丢弃置信度分数小于某个阈值(例如 0.5)的那些对象。
  • 选择目标候选区域中概率最高的区域作为预测区域。
  • 在最后一步中,我们丢弃了 IoU(联合交集)与预测区域超过0.5 的区域。


之后,我们可以通过在输入图像上绘制这些边界框并标记边界框中存在的对象来获得输出。
结果:
R-CNN 在 VOC 2010 数据集上的平均精度 (mAP) 为53.7% 。在200 类 ILSVRC 2013对象检测数据集上,它给出了31.4%的 mAP,这比之前最好的24.3%有了很大的改进。然而,这种架构的训练速度非常慢,需要49 秒才能在 VOC 2007 数据集的单个图像上生成测试结果。

R-CNN 的挑战:

  • 选择性搜索算法非常严格,没有学习发生。这有时会导致为对象检测生成糟糕的区域建议。
  • 由于大约有2000个候选提案。训练网络需要很多时间。我们还需要分别训练多个步骤(CNN 架构、SVM 模型、边界框回归器)。因此,这使得实施起来非常缓慢。
  • R-CNN 不能实时使用,因为使用边界框回归器测试图像大约需要50 秒
  • 因为我们需要保存所有区域提案的特征图。它还增加了训练期间所需的磁盘内存量。

参考:

  • R-CNN 论文
  • 选择性检索纸