广西网络推广

NEWS INFORMATION

网络资讯

深度残差网络的主要分析及操作

作者:admin 发布时间:2020-02-15

深度残差网络的主要分析及操作

前言 本文的主要贡献是通过理论分析和广泛的实验证明了使用恒等映射 ( ) 作为残差块的快捷连接 (skip ) 的重要性。同时将BN/ReLu的操作移到了Conv(真正的操作)之前,提出了“预激活”操作,与“激活后”操作的对比实验表明,对于多层网络残差网络的核心设计,使用预激活残差单元。(预单元)v2 都比 v1(或 v1.5)取得更好的结果。概括

最近出现了很多基于深度残差网络(deep)的非常深的网络架构,它们在准确率和收敛性方面的表现非常出色。本文主要分析残差网络的基本构建块(block)中的信号传播。本文发现,当恒等映射(·)作为快捷连接(skip)并在加法运算后移动激活函数时,正向和反向信号都可以直接在两个块之间传播,而不受任何变换操作的影响。同时,大量的实验结果证明了恒等映射的重要性。基于这一发现,本文重新设计了残差网络基本单元(unit),使网络更容易训练,提高泛化性能。

请注意,这里的实验是深度 ($\geq$ 110 ) 实验,所以我认为,对于深层,使用“预激活”残差单元 (v2) 的网络 (v2) 更容易训练且更准确。高的。1 简介

深度残差网络 (·) 由一堆残差单元 (Units) 组成。每个残差单元(图 1(a))可以表示为:

高层建筑核心筒设计_残差网络的核心设计_基于quartus ii的计算机核心设计

其中x_l和x_{l+1}是第l个残差单元的输入和输出,F是残差函数。其中 h(x_{l})= x_{l} 是恒等映射(),f 是 ReLU 激活函数。超过 1000 层的残差网络在数据集和 COCO 数据集上都达到了当前的最佳精度。残差网络的核心思想是在h(x_{l})的基础上学习一个额外的残差函数F。关键选择是使用恒等映射 h(x_{l})= x_{l},这可以通过向网络添加恒等快捷方式(跳过)来实现。

本文的主要目的是分析在深度残差网络中“直接”信息传播路径的构建——不仅仅是直接在残差单元中,而是在信息可以“直接”传播的整个网络中。如果 h(x_{l}) 和 f(y_{l}) 都是恒等映射,则信号可以直接在单元之间进行前向反向传播。实验表明,基本满足上述条件的网络架构一般更容易训练。在本文中,我们对不同形式的 h(x_{l}) 进行了实验,发现使用恒等映射的网络具有最好的性能、最快的错误减少和最低的训练损失。这些实验表明,“干净”的信息渠道有助于优化。

高层建筑核心筒设计_基于quartus ii的计算机核心设计_残差网络的核心设计

为了构造f(y_{l})=y_{l}的恒等映射,本文将激活函数(ReLU和BN)移到权重层(Conv)之前残差网络的核心设计,形成“预激活(pre-) ” 代替传统的“后激活(post-)”方法,设计了一个新的残差单元(见图1(b))。基于这个新单元,我们使用 1001 层的残差网络在 CIFAR-10/100 数据集上进行训练,发现新的残差网络比之前的更容易训练和泛化更好。同时,还考察了 200 层新残差网络的性能。原来的残差网络在这个层数之后开始过拟合。这些结果表明,在网络深度这个维度上还有很大的探索空间,毕竟深度是现代神经网络成功的关键。

2.深度残差网络分析

原始残差单元可以表示为:

高层建筑核心筒设计_基于quartus ii的计算机核心设计_残差网络的核心设计

在 中,函数 h 是一个恒等映射,即 h(x_{l}) = x_{l} 。公式的参数说明如下图所示:

基于quartus ii的计算机核心设计_残差网络的核心设计_高层建筑核心筒设计

如果函数 f 也是一个恒等映射,即 y_{l}\equiv y_{l} ,则方程 (1)(2) 可以组合为:

那么任意深单元L和浅单元l之间的关系为:

基于quartus ii的计算机核心设计_高层建筑核心筒设计_残差网络的核心设计

等式 (4) 有两个性质:

深单元的特征可以通过浅单元的特征和残差函数相加得到;任何深度单元的特征都可以通过起始特征x_0和之前所有的残差函数相加得到,这与普通(普通)网络不同,普通网络的深度特征是通过一系列矩阵向量相乘得到的。残差网络是连续加法,普通网络是连续乘法。

公式(4)也带来了良好的反向传播特性。损失函数用\表示。根据反向传播的链式传导规则,反向传播公式如下:

基于quartus ii的计算机核心设计_残差网络的核心设计_高层建筑核心筒设计

由式(5)可以看出,反向传播也是两条路径,一条直接将信息传回来,另一条经过所有的加权层。另外可以注意到,在一个mini-batch中,第二项的值不可能总是-1,也就是说,无论网络中权重的值多小,返回的梯度都不会消失,不会出现梯度消失现象。.

3. 关于跳过

考虑恒等映射的重要性。假设恒等映射更改为 h(x_{l}) = \{l}x_{l}) ,则:

像方程(4)一样递归调用方程(3),我们得到:

高层建筑核心筒设计_残差网络的核心设计_基于quartus ii的计算机核心设计

其中,\hat{F}表示将标量并入残差函数,与公式(5)类似,反向传播公式如下:

基于quartus ii的计算机核心设计_残差网络的核心设计_高层建筑核心筒设计

与等式 (5) 不同,等式 (8) 的第一个加法项由因子 \prod_{i=l}^{L-1}\{i} 调整。对于一个很深的网络(L很大),考虑第一个乘法项,如果所有\都大于1,那么这个项呈指数增长;如果所有\小于1,则该项将很小甚至消失,从而阻止反向传播信号并迫使其流过权重层。本文通过实验证明,该方法会导致模型优化困难。

此外,其他不同形式的变换映射也会阻碍信号的有效传播,从而影响训练过程。

基于quartus ii的计算机核心设计_残差网络的核心设计_高层建筑核心筒设计

4.关于使用

第 3 章探讨了使用不同形式的映射(参见图 2)来验证函数 h 是恒等映射的重要性。本章讨论方程(2)中的f,如果f也是恒等映射,网络的性能会更好吗?提高。通过调整激活函数(ReLU 和/或 BN)的位置,f 是一个恒等映射。图 4 为激活函数在不同位置的残差单元结构图。

图 4(e) 中的“预激活”操作是本文提出的一种网络结构 (v2),可以更有效地训练深度残差网络。

基于quartus ii的计算机核心设计_高层建筑核心筒设计_残差网络的核心设计

4.1。上

在本章中,我们使用 -110 和 164 层的瓶颈结构(称为 -164)进行实验。瓶颈残差单元包含一个 1×1 层来降低维度,一个 3×3 层和一个 1×1 层来恢复维度。如论文所述,其计算复杂度类似于由两个 3×3 卷积层组成的残差单元。

BN after的效果比差。将BN层移到加法运算的后面会阻碍信号传播。一个明显的现象是,在训练的早期,误差下降缓慢。

如果 ReLU 以这种方式组合,残差函数分支的输出将始终保持非负,这会影响模型的表示能力,并且实验结果也表明这种组合比基准更差。

Post- 或 pre- 在原始设计中,在加法运算之后有一个 ReLU 激活函数。这个激活函数会影响残差单元的两个分支。现在移到残差函数分支,快捷连接分支不再受影响。具体操作如图5所示。

基于quartus ii的计算机核心设计_高层建筑核心筒设计_残差网络的核心设计

根据激活函数与加法运算的位置关系,我们将之前的组合方式称为“激活后(post-)”,现在将新的组合方式称为“激活前(pre-)”。原始设计和预激活残差单元的性能对比如表3所示。预激活方法可以分为两种:只把ReLU放在前面,或者把ReLU和BN都放在前面。根据表 2 的结果可以看出,full pre- 的效果更好。

残差网络的核心设计_基于quartus ii的计算机核心设计_高层建筑核心筒设计

高层建筑核心筒设计_基于quartus ii的计算机核心设计_残差网络的核心设计

4.2,

使用预激活有两个好处:1)f变成了恒等映射,使得网络更容易优化;2)使用BN作为预激活可以加强模型的正则化。

在训练 1001 层残差网络时,这一点尤为明显,详见图 1。使用原设计的网络,初始阶段误差下降很慢,因为f是ReLU激活函数,当信号为负时会被截断,使得模型无法很好的逼近预期函数;在使用预激活网络时,f 是常数。等映射,信号可以直接在不同的单元中直接传播。本文使用的 1001 层网络优化得非常快,并且达到了最低的误差。

f是ReLU对浅层残差网络影响不大,如图6-右所示。本文认为,当网络经过一段时间的训练后,适当调整权重,使得单元的输出基本是非负的,f不会再截断信号。但截断经常发生在超过 1000 层的网络中。

高层建筑核心筒设计_残差网络的核心设计_基于quartus ii的计算机核心设计

看图 6-右,预激活网络的训练误差略高,但测试误差较低。本文推测这是由于BN层的正则化效应。在原始残差单元中,BN虽然对信号进行了归一化,但很快被合并到 ()上,合并后的信号没有归一化。这个未归一化的信号又被用作下一个权重层的输入。相比之下,在我们的模型的预激活(预)版本中,权重层的输入总是被归一化的。

5.

表 4 和表 5 分别显示了不同深度网络在不同数据集上的性能。使用的预激活单元和更深的残差网络(v2)都达到了最佳精度。

基于quartus ii的计算机核心设计_高层建筑核心筒设计_残差网络的核心设计

残差网络的核心设计_基于quartus ii的计算机核心设计_高层建筑核心筒设计

六,结论

恒等映射形式的快捷连接和预激活对于网络中的平滑信号传播至关重要。

参考【DL--】002-in Deep(译)in Deep 最后,如果你在阅读文章中有所收获,一定要先点赞再收藏。毕竟,当你给某人一朵玫瑰时,你的手中就有了余香。

了解更多学习网络推广知识,就来广西网络推广。

上一篇:【每日一题】网络层数越深,梯度弥散现象可能会越严重
下一篇:,今工程机械怎么做网络推广哪家好物流网络代运营越难赚

友情链接 :  版权所有 技术支持:广西曾维沛网络科技