ITPub博客

首页 > 人工智能 > 人工智能 > DeepID-Net——形变约束池化层(对象检测)

DeepID-Net——形变约束池化层(对象检测)

原创 人工智能 作者:李佳惠 时间:2018-10-09 09:44:30 0 删除 编辑

在本文中,简要回顾了DeepID-Net,介绍了一种基于形变部件的卷积神经网络(CNN)。采用一个新的形变约束池化层(def-pooling)模拟具有几何约束和惩罚的对象部分的变形。

这意味着,除了直接检测整个对象外,检测可以帮助检测整个对象的对象部分也是至关重要的。它是ILSVRC 2014中的第一个用于对象检测任务的文章。它已在2015年发表在CVPR [1]和2017年TPAMI [2]论文中,共引用了约300篇文章(SH Tsang @ Medium)。

DeepID-Net

黑色的步骤实际上是R-CNN中存在的原有东西。实际上红色的步骤没有出现在R-CNN中。

我将在上图中提及每一个步骤,并在文章结尾处给出结果。

步骤

(1)选择性搜索

(2)边界框拒绝

(3)使用对象级注释进行预训练

(4)形变约束池化层(Def-Pooling Layer)

(5)场景建模

(6)模型平均

(7)边界框回归

1.选择性搜索

DeepID-Net——形变约束池化层(对象检测)

选择性搜索

(1)首先,颜色相似性、纹理相似性、区域大小和区域填充被用作非基于对象的分割。因此,我们获得了许多小的分割区域,如图的左下角所示。

(2)然后,使用自下而上的方法将小的分割区域合并在一起,以形成更大的分段区域。

(3)因此,如图像所示,生成大约2K个区域提议(边界框候选)。

2. 边界框拒绝

R-CNN用于拒绝最有可能是背景的边界框。

3.使用对象级注释进行预训练

DeepID-Net——形变约束池化层(对象检测)

对象级注释(左),图像级注释(右)

通常,预训练是基于图像层次的注释。当对象在图像中太小时,其效果不好,因为对象应占据由选择性搜索创建的边框内的大区域。

因此,预训练是在对象级注释上进行的。深度学习模型可以是任何模型,例如ZFNet、VGGNet和GoogLeNet。

4. 形变约束池化层(Def-Pooling Layer)

DeepID-Net——形变约束池化层(对象检测)

整体架构的更多细节

比如我们使用ZFNet,在conv5之后,输出将通过原始FC层fc6和fc7,以及一组转换和建议的形变约束池化层(Def-Pooling Layer)。  

DeepID-Net——形变约束池化层(对象检测)


形变约束池层(Def-Pooling Layers),每个光圈中心具有高激活值  

DeepID-Net——形变约束池化层(对象检测)

形变约束(Def-Pooling)方程式

对于形变约束路径,conv5的输出经过卷积层,然后经过形变约束层,然后有一个最大池化层(max pooling layer)。

简而言之,ac乘以dc和n的总和是上图中的5×5变形惩罚。惩罚是将对象部分放置在假定锚位置的惩罚。

形变约束池层(Def-Pooling Layers)学习具有不同大小和语义含义的对象部分的变形。

通过训练这个形变约束池层(Def-Pooling Layers),如果待检测对象的对象部分靠近它们的锚点,则在形变约束池层(Def-Pooling Layers)之后将给出高的激活值。这个输出将连接到200个类别分数以改进。

5.场景建模

在ILSVRC中的对象检测任务中,只有200个类别。ILSVRC还有一项分类竞争任务,用于对1000个类别对象进行分类和本地化。与对象检测任务相比,内容更加多样化。因此,通过分类网络获得的1000个类分数用于细化200级分数。

6.模型平均

使用多个模型来提高精度,并对所有模型的结果进行平均。自LeNet、AlexNet等以来一直使用这种技术。

7.边界框回归

边界框回归仅用于微调已在R-CNN中使用的边界框位置。

结果



增量结果 ·具有选择性搜索的R-CNN(步骤1):29.9%mAP(平均预测)

·边界框拒绝(步骤2):30.9% ·从AlexNet更改为ZFNet(步骤3):31.8% ·从ZFNet改为VGGNet(步骤3):36.6% ·从VGGNet更改为GoogLeNet(步骤3):37.8% · +对象级注释进行预训练(步骤3):40.4% ·来自[Ref 60]的更多边界框建议+边缘:42.7% ·+ Def-Pooling Layers(步骤4)):44.9% ·VGGNet建议的+多尺度训练:47.3% ·+场景建模(步骤5):47.8% ·+边界框回归(步骤7):48.2% ·+模型平均(步骤6):50.7%!

与多模型多裁剪(multi-crop)的GoogLeNet相比,DeepID-Net的mAP高出6.1%。但是,正如我们所看到的,一些贡献实际上来自其他论文。然而,有两个最新的想法是对象级注释和形变约束池层(Def-Pooling Layers)的预训练。

参考文章   [2015年CVPR] [DeepID-Net] DeepID-Net:用于对象检测的可变形深度卷积神经网络

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ouyang_DeepID-Net_Deformable_Deep_2015_CVPR_paper.pdf [2017 TPAMI] [DeepID-Net] DeepID-Net:用于对象检测的可变形深度卷积神经网络 https://ieeexplore.ieee.org/document/7298854


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31545819/viewspace-2215636/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-09-19

  • 博文量
    81
  • 访问量
    90395