澳门新葡亰app下载 > 澳门新葡亰网址下载 >

计算机视觉 - 常见的图片分类模型【架构演变】

时间:2019-11-18 16:51:57 阅读:160

  conv2使用了包括3层、4层、6层三种通道数不同的filters,然后将它们的输出拼接在一起作为这一层的输出。

  最后一层是RBF,虽是全连接,但参数W是给定值。输入的\(84\)维向量相当于\(12*7\)的比特图。输出的每一个值,代表了输入与输出对应的参数权重的均方误差MSE。

  在前两个全连接层使用了系数为0.5的 Dropout,因此测试时需要将结果乘以0.5

  在论文中,还引入了局部响应归一化层LRN。但后来证明没有效果提升。同时,overlapping Max Pooling也没有被广泛应用。

  对于某一层的某个 feature map,我们在验证集中寻找使该 feature map 的 response 最大的九张图片,画出这九张图片中的该 feature map 反卷积映射的结果,并和原图相对应的 patch 对比

  特征可视化:层数越高,提取的特征越复杂,不变性越明显,越 discrimination。

  特征不变性:(1) 图像缩放、平移对模型第一层影响较大,对后面基本没有影响;(2) 图像旋转后,特征不具有不变性。

  通过第一层和第二层可视化对AlexNet进行改造得到ZFNet:减小感受野,降低步长。

  使用了统一的卷积结构,证明了深度对模型效果的影响。LRN层没有提升效果。

  堆叠多个3x3的感受野,可以获得类似于更大感受野的效果。同时,多层3x3卷积堆叠对应的参数更少(减少参数相当于正则化效果)

  论文发表之前相关的工作:当时研究者关注增加层数和filter数目(可能会导致小样本过拟合,并需要大量的计算资源),并通过Dropout防止过拟合。尽管有人认为 Max Pooling 造成了空间信息的损失,但这种结构在 localization、detection、human pose estimation 中均取得很好的成绩。

  为解决过拟合和计算代价高的问题,使用稀疏网络来代替全连接网络。在实际中,即使用卷积层。

  5x5卷积的感受野与两个3x3卷积堆叠所对应的感受野相同。使用后者可以大大减少网络参数。7x7同理。此外,两个3x3卷积后各连接一个非线性层的效果优于仅在最后连接一个非线性层

  通常,一个 residual unit 的残差部分使用二至三层的函数映射(或称卷积层),shortcut 部分与残差部分进行 eltwise add 后再连接非线性层。

  相比v3,Inception v4的主要变化是网络的加深,卷积和的个数也大大增加

  Inception-ResNet即将ResNet的残差结构替换成了简单的Inception结构

  文中认为ResNet对提高精度的帮助较小【ResNet论文中提到ResNet解决了退化问题】,加快过深网络的训练速度是其主要优势。对于特别深的残差网络,可以通过在残层结构后接一个scaling【如残层结构输出的一个元素乘以0.2】来提高模型稳定性。

  很多论文在ResNet的网络结构基础上进行了细微的改动。主要的观点是ResNet存在diminishing feature reuse的问题。网络过深,很多残差块对最终结果只做出了很少的贡献。甚至,有些残差块没有学到有用的信息,反而在之前学到的feature representation中加入了轻微噪声

  ResNet提高一点精度可能需要将深度增加一倍,而且会产生diminishing feature reuse问题,因此提出增加残差块的宽度,减少网络深度的WRNs

  文中提到论文 Deep Networks with Stochastic Depth 中通过使残差块随机失活来降低每次训练使网络的深度。

  作者做了大量的实验,表明两个3x3卷积堆叠的残差块的效果优于其他残差块结构。

  同时增加深度和宽度可以提高精度,但需要正则。增加宽度比增加深度更容易训练。

  在瘦长和矮胖的网络中,在残差块中的两个卷积间增加 Dropout 层均有效果。在不做大量的数据增强的前提下,Dropout 的效果比 Batch Normalization 更好