SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION--论文笔记

论文笔记

资料

1.代码地址

https://github.com/google-research/sam
https://github.com/davda54/sam

2.论文地址

https://arxiv.org/abs/2010.01412

3.数据集地址

论文摘要的翻译

在当今严重过度参数化的模型中,训练损失的值很难保证模型的泛化能力。事实上,像通常所做的那样,只优化训练损失值很容易导致次优的模型质量。受损失的几何图像与泛化相结合的前人工作的启发,我们引入了一种新的、有效的同时最小化损失值和损失锐度的方法。特别是,我们的方法,锐度感知最小化(SAM),寻找位于具有一致低损失的邻域的参数;这个公式致使一个最小值-最大值的优化问题,在该问题上可以有效地执行梯度下降。我们提出的经验结果表明,SAM提高了各种基准数据集(例如,CIFAR-{10,100}、ImageNet、微调任务)和模型的模型泛化能力,为几个数据集带来了新的最先进的性能。此外,我们发现SAM原生地提供了对标签噪声的鲁棒性,这与专门针对带有噪声标签的学习的过程所提供的鲁棒性不相上下。

1背景

现代机器学习成功地在广泛的任务中实现了越来越好的性能,这在很大程度上取决于越来越重的过度参数化,以及开发越来越有效的训练算法,这些算法能够找到很好地泛化的参数。事实上,许多现代神经网络可以很容易地记住训练数据,并具有容易过拟合的能力。目前需要这种严重的过度参数化才能在各种领域实现最先进的结果。反过来,至关重要的是,使用程序来训练这些模型,以确保实际选择的参数事实上超越了训练集。
不幸的是,简单地最小化训练集上常用的损失函数(例如,交叉熵)通常不足以实现令人满意的泛化。今天的模型的训练损失景观通常是复杂的和非凸的,具有多个局部和全局极小值,并且具有不同的全局极小值产生具有不同泛化能力的模型。因此,从许多可用的(例如,随机梯度下降、Adam)、RMSProp和其他中选择优化器(和相关的优化器设置)已成为一个重要的设计选择,尽管对其与模型泛化的关系的理解仍处于初级阶段。与此相关的是,已经提出了一系列修改训练过程的方法,包括dropout,批量归一化、随机深度、数据增强和混合样本增强.
损失图像的几何形状——特别是最小值的平坦性和泛化之间的联系已经从理论和实证的角度进行了广泛的研究)。虽然这种联系有望实现新的模型训练方法,从而产生更好的泛化能力,但迄今为止,专门寻找更平坦的最小值并进一步有效提高一系列最先进模型泛化能力的实用高效算法一直难以实现;我们在第5节中对先前的工作进行了更详细的讨论)。

2论文的创新点

  • 我们引入了锐度感知最小化(SAM),这是一种新的方法,通过同时最小化损失值和锐度来提高模型的泛化能力。SAM通过寻找位于具有一致低损耗值的邻域中的参数(而不是仅具有低损耗值的参数,如图1的中间和右侧图像所示)来工作,并且可以高效且容易地实现。

在这里插入图片描述

  • 我们通过一项严格的实证研究表明,使用SAM提高了一系列广泛研究的计算机视觉任务(例如,CIFAR-{10,100},ImageNet,微调任务)和模型的模型泛化能力,如图1的左侧曲线图中总结的。例如,应用SAM为许多已经深入研究的任务,如ImageNet,CIFAR-{10,100},SVHN,Fashion-MNIST,和标准的图像分类微调任务集(例如,Flowers,Stanford Cars,Oxford Pets,等)产生了新的最先进的性能。
  • 我们还表明,SAM进一步提供了标签噪声的稳健性,与专门针对带有噪声标签的学习的最先进的程序所提供的一样。
  • 通过SAM提供的视角,我们提出了一个很有使用价值的锐度的新概念,我们称之为m-锐度,从而进一步阐明了损失锐度和泛化之间的联系。

3 论文方法的概述

在本文中,我们将标量表示为 a a a,将向量表示为 a \mathbf{a} a、将矩阵表示为 A \Alpha A、将集合表示为 A \mathcal A A,将等式定义为,。给定训练数据集 S ≜ ∪ i = 1 n { ( x i , y i ) } \mathcal{S}\triangleq\cup_{i=1}^n\{(x_i,y_i)\} Si=1n{(xi,yi)}从分布 D , \mathscr{D}, D,,中i.i.d.绘制,我们寻求学习一个很好地泛化的模型。特别地,考虑一组由 w ∈ W ⊆ R d w\in\mathcal{W}\subseteq\mathbb{R}^d wWRd参数化的模型;给定一个逐数据点损失函数 l : W × X × Y → R + l:\mathcal{W}\times\mathcal{X}\times\mathcal{Y}\to\mathbb{R}_+ l:W×X×YR+,我们定义了训练集损失 L S ( w ) ≜ 1 n ∑ i = 1 n l ( w , x i , y i ) L_S(\boldsymbol{w})\triangleq\frac1n\sum_{i=1}^nl(\boldsymbol{w},\boldsymbol{x}_i,\boldsymbol{y}_i) LS(w)n1i=1nl(w,xi,yi)和总体损失 L D ( w ) ≜ E ( x , y ) ∼ D [ l ( w , x , y ) ] L_{\mathscr{D}}(\boldsymbol{w})\triangleq\mathbb{E}_{(\boldsymbol{x},\boldsymbol{y})\thicksim D}[l(\boldsymbol{w},\boldsymbol{x},\boldsymbol{y})] LD(w)E(x,y)D[l(w,x,y)]。在仅观察到 S \mathcal S S的情况下,模型训练的目标是选择具有低总体损失 L D ( w ) L_{\mathscr{D}}(\boldsymbol{w}) LD(w)的模型参数 w w w
利用 L S ( w ) 作为 L D ( w ) L_S(\boldsymbol{w})作为L_{\mathscr{D}}(\boldsymbol{w}) LS(w)作为LD(w)的估计,通过使用诸如SGD或Adam之类的优化过程来求解 m i n w L S ( w ) min_w L_S(\boldsymbol{w}) minwLS(w)(可能与w上的正则化子结合)来激励选择参数w的标准方法。然而,不幸的是,对于现代的过度参数化模型,如深度神经网络,典型的优化方法很容易在测试时导致次优性能。特别地,对于现代模型, L S ( w ) L_S(\boldsymbol{w}) LS(w)通常在w中是非凸的,具有多个局部甚至全局最小值,这些局部甚至全局极小值可以产生相似的 L S ( w ) L_S(\boldsymbol{w}) LS(w)值,同时具有显著不同的泛化性能(即,显著不同的 L D ( w ) L_{\mathscr{D}}(\boldsymbol{w}) LD(w)值)。
受损失图形的锐度和泛化之间的联系的启发,我们提出了一种不同的方法:我们不是寻找简单地具有低训练损失值 L S ( w ) L_S(\boldsymbol{w}) LS(w)的参数值 w w w,而是寻找整个邻域具有一致低训练损失的参数值(相当于,具有低损失和低曲率的邻域)。以下定理通过在邻域训练损失方面限制泛化能力来说明这种方法的动机(附录A中的完整定理陈述和证明):

  • 定理1
    对于任意 ρ > 0 ρ>0 ρ>0、在由分布 D \mathscr D D生成的训练集 S 上 \mathcal S上 S具有高概率的情况, L D ( w ) ≤ max ⁡ ∥ ϵ ∥ 2 ≤ ρ L S ( w + ϵ ) + h ( ∥ w ∥ 2 2 / ρ 2 ) , L_\mathscr{D}(\boldsymbol{w})\leq\max_{\|\boldsymbol{\epsilon}\|_2\leq\rho}L_\mathcal{S}(\boldsymbol{w}+\boldsymbol{\epsilon})+h(\|\boldsymbol{w}\|_2^2/\rho^2), LD(w)ϵ2ρmaxLS(w+ϵ)+h(w22/ρ2),其中h: R + → R + \mathbb{R}_+\to\mathbb{R}_+ R+R+是严格递增函数(在 L D ( w ) L_{\mathscr{D}}(\boldsymbol{w}) LD(w)上的一些技术条件下)。为了明确我们的锐度项,我们可以将上面不等式的右侧重写为为了明确我们的锐度项,我们可以将上面不等式的右侧重写为 [ max ⁡ ∥ ϵ ∥ 2 ≤ ρ L S ( w + ϵ ) − L S ( w ) ] + L S ( w ) + h ( ∥ w ∥ 2 2 / ρ 2 ) . [\max_{\|\boldsymbol{\epsilon}\|_2\leq\rho}L_\mathcal{S}(\boldsymbol{w}+\boldsymbol{\epsilon})-L_\mathcal{S}(\boldsymbol{w})]+L_\mathcal{S}(\boldsymbol{w})+h(\|\boldsymbol{w}\|_2^2/\rho^2). [maxϵ2ρLS(w+ϵ)LS(w)]+LS(w)+h(w22/ρ2).
    方括号中的项通过测量通过从 w w w移动到附近的参数值可以以多快的速度增加训练损失来捕捉 L S L_S LS w w w处的锐度;然后将该锐度项与训练损失值本身和 w w w大小上的正则化子求和。给定特定函数h深受证明细节的影响,我们用 λ ∣ ∣ w ∣ ∣ 2 2 \lambda||w||_2^2 λ∣∣w22代替超参数λ的第二项,得到标准L2正则化项。因此,受约束项的启发,我们建议通过解决以下SharpnessAware最小化(SAM)问题来选择参数值:
    min ⁡ w L S S A M ( w ) + λ ∥ w ∥ 2 2   w h e r e   L S S A M ( w ) ≜ max ⁡ ∣ ∣ ϵ ∣ ∣ p ≤ ρ L S ( w + ϵ ) , \min_{\boldsymbol{w}}L_{\mathcal{S}}^{SAM}(\boldsymbol{w})+\lambda\|\boldsymbol{w}\|_2^2\quad\mathrm{~where~}\quad L_{\mathcal{S}}^{SAM}(\boldsymbol{w})\triangleq\max_{||\boldsymbol{\epsilon}||_p\leq\rho}L_S(\boldsymbol{w}+\boldsymbol{\epsilon}), wminLSSAM(w)+λw22 where LSSAM(w)∣∣ϵpρmaxLS(w+ϵ),其中 ρ ≥ 0 ρ≥0 ρ0是一个超参数, p ∈ [ 1 , ∞ ] p∈[1,∞] p[1](我们在最大化过程中从L2范数略微推广到p范数,本文已经证明 p = 2 p=2 p=2通常是最优的)。图1显示了1通过最小化 L S ( w ) L_S(\boldsymbol{w}) LS(w) L S S A M ( w ) L^{SAM}_S(\boldsymbol{w}) LSSAM(w)而收敛到最小值的模型的损失情况,说明了锐度感知损失阻止了模型收敛到尖锐的最小值。在这里插入图片描述
    为了最小化 L S S A M ( w ) L^{SAM}_S(\boldsymbol{w}) LSSAM(w),我们通过内部最大化进行微分,推导出了一个有效的近似值,从而使我们能够将随机梯度下降直接应用于SAM目标。沿着这条路前进,我们首先通过 L S ( w + ϵ )   w . r . t .   ϵ L_{\mathcal{S}}(w+\epsilon)\mathrm{~w.r.t.~}\epsilon LS(w+ϵ) w.r.t. ϵ 在0附近的一阶泰勒展开来近似内部最大化问题,得到 ϵ w ) ≜ arg ⁡ max ⁡ ∥ ϵ ∥ p ≤ ρ L S ( w + ϵ ) ≈ arg ⁡ max ⁡ ∥ ϵ ∥ p ≤ ρ L S ( w ) + ϵ T ∇ w L S ( w ) = arg ⁡ max ⁡ ∥ ϵ ∥ p ≤ ρ ϵ T ∇ w L S ( w ) . \boldsymbol{\epsilon}\\\boldsymbol{w})\triangleq\arg\max_{\|\boldsymbol{\epsilon}\|_p\leq\rho}L_{\mathcal{S}}(\boldsymbol{w}+\boldsymbol{\epsilon})\approx\arg\max_{\|\boldsymbol{\epsilon}\|_p\leq\rho}L_{\mathcal{S}}(\boldsymbol{w})+\boldsymbol{\epsilon}^T\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(\boldsymbol{w})=\arg\max_{\|\boldsymbol{\epsilon}\|_p\leq\rho}\boldsymbol{\epsilon}^T\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(\boldsymbol{w}). ϵw)argϵpρmaxLS(w+ϵ)argϵpρmaxLS(w)+ϵTwLS(w)=argϵpρmaxϵTwLS(w).反过来,求解该近似的值 ξ ( w ) ξ(w) ξ(w)由经典对偶范数问题的解给出( ∣ ⋅ ∣ q − 1 |·|^{q−1} q1表示元素绝对值和幂): ϵ ^ ( w ) = ρ   s i g n ( ∇ w L S ( w ) ) ∣ ∇ w L S ( w ) ∣ q − 1 / ( ∥ ∇ w L S ( w ) ∥ q q ) 1 / p (2) \hat{\boldsymbol{\epsilon}}(w)=\rho\mathrm{~sign}\left(\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(w)\right)|\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(w)|^{q-1}/\left(\|\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(w)\|_{q}^{q}\right)^{1/p}\text{(2)} ϵ^(w)=ρ sign(wLS(w))wLS(w)q1/(wLS(w)qq)1/p(2)其中1/p+1/q=1。代入方程(1)并进行微分,我们得到 ∇ w L S S A M ( w ) ≈ ∇ w L S ( w + ϵ ^ ( w ) ) = d ( w + ϵ ^ ( w ) ) d w ∇ w L S ( w ) ∣ w + ϵ ^ ( w ) \nabla_{\boldsymbol{w}}L_{\mathcal{S}}^{SAM}(\boldsymbol{w})\approx\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(\boldsymbol{w}+\hat{\boldsymbol{\epsilon}}(\boldsymbol{w}))=\frac{d(\boldsymbol{w}+\hat{\boldsymbol{\epsilon}}(\boldsymbol{w}))}{d\boldsymbol{w}}\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(\boldsymbol{w})|_{\boldsymbol{w}+\hat{\boldsymbol{\epsilon}}(w)} wLSSAM(w)wLS(w+ϵ^(w))=dwd(w+ϵ^(w))wLS(w)w+ϵ^(w)
    可以通过自动微分直接计算这种对 ∇ w L S S A M ( w ) \nabla_{\boldsymbol{w}}L_{\mathcal{S}}^{SAM}(w) wLSSAM(w)的近似,如在JAX、TensorFlow和PyTorch等公共库中实现的那样。尽管该计算隐含地依赖于LS(w)的Hessian,因为ξ。获得我们的最终梯度近似: ∇ w L S S A M ( w ) ≈ ∇ w L S ( w ) ∣ w + ϵ ^ ( w ) . \nabla_{\boldsymbol{w}}L_{\mathcal{S}}^{SAM}(\boldsymbol{w})\approx\nabla_{\boldsymbol{w}}L_{\mathcal{S}}(w)|_{\boldsymbol{w}+\hat{\boldsymbol{\epsilon}}(\boldsymbol{w})}. wLSSAM(w)wLS(w)w+ϵ^(w).
    我们通过将标准数值优化器(如随机梯度下降(SGD))应用于SAM目标 L S S A M ( w ) L_\mathcal{S}^{SAM}(\boldsymbol{w}) LSSAM(w),使用方程3来计算必要的目标函数梯度,从而获得最终的SAM算法。算法1给出了完整SAM算法的伪代码,使用SGD作为基本优化器,图2示意性地说明了单个SAM参数更新。
    在这里插入图片描述在这里插入图片描述

4 论文实验

为了评估SAM的功效,我们将其应用于一系列不同的任务,包括从头开始的图像分类(包括在CIFAR-10、CIFAR-100和ImageNet上)、微调预训练的模型以及使用噪声标签进行学习。在所有情况下,我们都通过简单地用SAM代替用于训练现有模型的优化程序来衡量使用SAM的好处,并计算由此对模型泛化的影响。如下所示,SAM在绝大多数情况下都能显著提高泛化性能。

4.1 图像分类

我们首先评估了SAM对当今最先进的CIFAR-10和CIFAR-100模型(无需预训练)泛化的影响:具有ShakeShake正则化的WideResNets和具有ShakeDrop正则化的PyramidNet。请注意,这些模型中的一些已经在先前的工作中进行了大量调整,并包括精心选择的正则化方案,以防止过拟合;因此,显著提高它们的泛化能力是非常重要的。我们已经确保在没有SAM的情况下,我们的实现的泛化性能与先前工作中报告的性能相匹配或超过。
所有结果都使用了基本数据增强(水平翻转、四像素填充和随机裁剪)。我们还评估了更先进的数据增强方法,如剪切正则化和AutoAugment(,这些方法被先前的工作用来实现最先进的结果。
SAM具有单个超参数 ρ (邻域大小) ρ(邻域大小) ρ(邻域大小),我们使用10%的训练集作为验证集,通过在 { 0.01 , 0.02 , 0.05 , 0.1 , 0.2 , 0.5 } \{0.01,0.02,0.05,0.1,0.2,0.5\} {0.010.020.050.10.20.5}上的网格搜索对其进行调整。有关所有超参数的值和其他训练细节,请参见附录C.1。由于每个SAM权重更新需要两个反向传播操作(一个用于计算 ξ ( w ) ξ(w) ξw,另一个用于估计最终梯度),我们允许每个非SAM训练运行执行两倍于每个SAM训练运行的轮次,并且我们报告每个非SAM训练运行在标准轮次计数或加倍轮次计数上获得的最佳得分。我们运行每个实验条件的五个独立副本,报告结果(每个条件都有独立的权重初始化和数据混洗),报告测试集的平均误差(或准确性)以及相关的95%置信区间。我们的实现使用JAX,并且我们在具有8个NVidia V100 GPU的单个主机上训练所有模型。为了在跨多个加速器并行时计算SAM更新,我们在加速器之间均匀地划分每个数据批次,独立地计算每个加速器上的SAM梯度,并对得到的子批次SAM梯度进行平均,以获得最终的SAM更新。
如表1所示,SAM提高了针对CIFAR-10和CIFAR-100评估的所有设置的泛化能力。例如,SAM使简单的WideResNet能够获得1.6%的测试误差,而没有SAM时的误差为2.2%。这种增益以前只能通过使用更复杂的模型架构(例如,PyramidNet)和正则化方案(例如,Shake-Shake、ShakeDrop)来实现;SAM提供了一个易于实施的、独立于模型的替代方案。此外,即使在已经使用复杂正则化的复杂架构上应用SAM,SAM也能提供改进:例如,将SAM应用于具有ShakeDrop正则化的PyramidNet,在CIFAR-100上产生10.3%的误差,据我们所知,这是该数据集上的一个新的最先进技术,无需使用额外数据。
在这里插入图片描述
除了CIFAR-{101100}之外,我们还在SVHN和Fashion MNIST数据集上评估了SAM。再次,SAM使一个简单的WideResNet能够实现这些数据集达到或高于最先进水平的精度:SVHN的误差为0.99%,Fashion MNIST为3.59%。详细信息见附录B.1。
为了更大规模地评估SAM的性能,我们将其应用于在ImageNet上训练的不同深度(50,101,152)的ResNets。在这种情况下,根据先前的工作,我们将图像调整大小并裁剪到224像素分辨率,对其进行归一化,并使用批量大小4096、初始学习率1.0、余弦学习率计划、动量为0.9的SGD优化器、标签平滑度为0.1和权重衰减0.0001。当应用SAM时,我们使用ρ=0.05(通过对训练了100个时期的ResNet-50进行网格搜索确定)。我们使用Google Cloud TPU3在ImageNet上训练所有模型长达400个时期,并报告每个实验条件的前1和前5测试错误率(5次独立运行的平均值和95%置信区间)。
如表2所示,SAM再次持续提高性能,例如将ResNet-152的ImageNet top 1错误率从20.3%提高到18.4%。此外,请注意,SAM能够增加训练时期的数量,同时在不过度拟合的情况下继续提高准确性。相反,当训练从200个时期扩展到400个时期时,标准训练过程(没有SAM)通常显著地过拟合。
在这里插入图片描述

4.2 微调

通过在大型相关数据集上预训练模型,然后在感兴趣的较小目标数据集上进行微调,迁移学习已成为一种强大且广泛使用的技术,用于为各种不同的任务生成高质量的模型。我们在这里展示了SAM在这种情况下再次提供了相当大的好处,即使在微调非常大、最先进、已经高性能的模型时也是如此。
特别地,我们将SAM应用于微调EfficientNet-b7(在ImageNet上预训练)和EfficientNet-L2(在ImageNet上预训练加上未标记的JFT;输入分辨率475)。我们将这些模型初始化为公开可用的检查点6,分别用RandAugment(在ImageNet上的准确率为84.7%)和NoisyStudent(在Image Net上的正确率为88.2%)训练。我们通过从上述检查点开始训练每个模型,在几个目标数据集中的每个数据集上微调这些模型;有关使用的超参数的详细信息,请参阅附录。我们报告了每个数据集在5次独立运行中前1个测试误差的平均值和95%置信区间。
如表3所示,相对于没有SAM的微调,SAM均匀地提高了性能。此外,在许多情况下,SAM产生了新的最先进的性能,包括CIFAR-10上0.30%的误差、CIFAR-100上3.92%的误差和ImageNet上11.39%的误差。
在这里插入图片描述

4.3对标签噪声的鲁棒性

SAM寻找对扰动具有鲁棒性的模型参数这一事实表明,SAM有可能在训练集中提供对噪声的鲁棒性(这将扰乱训练损失景观)。因此,我们在这里评估SAM为标记噪声提供的鲁棒性程度。
特别地,我们测量了在CIFAR-10的经典噪声标签设置中应用SAM的效果,其中训练集的一小部分标签被随机翻转;测试集保持未修改(即干净)。为了确保与之前的工作进行有效的比较,之前的工作通常使用专门用于噪声标签设置的架构,我们在Jiang等人之后,为200个时期训练了一个类似大小的简单模型(ResNet-32)。我们评估了模型训练的五种变体:标准SGD、带Mixup的SGD、SAM和带MixupSAM的“自举”SGD变体(其中,首先像往常一样训练模型,然后在最初训练的模型预测的标签上从头开始重新训练)。当应用SAM时,我们对除80%之外的所有噪声级使用ρ=0.1,对于80%,我们使用ρ=0.05来获得更稳定的收敛。对于混合基线,我们尝试了α∈{1,8,16,32}的所有值,并保守地报告每个噪声水平的最佳得分。
如表4所示,SAM提供了对标签噪声的高度鲁棒性,与专门针对具有噪声标签的学习的现有技术程序所提供的鲁棒性不相上下。事实上,除了MentorMix(之外,简单地用SAM训练模型胜过所有专门针对标签噪声鲁棒性的现有方法。然而,简单地自举SAM产生的性能与MentorMix相当(后者要复杂得多)。
在这里插入图片描述

5 SAM视角下的锐度与泛化

5.1 m-锐度

尽管我们对SAM的推导定义了整个训练集的SAM目标,但当在实践中使用SAM时,我们计算每个批次的SAM更新(如算法1所述),甚至通过平均每个加速器独立计算的SAM更新来计算(其中每个加速器接收一个批次的大小为m的子集,如第3节所述)。后一种设置等效于修改SAM目标(等式1)以在一组独立的最大化上求和,每个最大化对m个数据点的不相交子集上的每个数据点损失的总和执行,而不是在训练集上的全局总和上执行最大化(这将等效于将m设置为总训练集大小)。我们将损失图像的锐度的相关度量称为m-锐度。
在这里插入图片描述

为了更好地理解m对SAM的影响,我们在CIFAR-10上使用m值范围的SAM训练一个小的ResNet。如图3(中间)所示,较小的m值往往产生具有更好泛化能力的模型。这种关系恰好符合跨多个加速器并行化的需要,以便为当今的许多模型扩展训练。有趣的是,如图3(右)所示,随着m的减少,上述m锐度测量进一步与模型的实际泛化差距表现出更好的相关性。特别地,这意味着,与上述定理1所建议的全训练集测度相比,m<n的m-清晰度产生了更好的泛化预测因子,这为理解泛化提供了一条有趣的新途径。

5.2 HESSIAN SPECTRA

受损失图像的几何形状和泛化之间的联系的启发,我们构建了SAM,以寻找具有低损失值和低曲率(即,低锐度)的训练损失图像的最小值。为了进一步证实SAM确实发现了具有低曲率的极小值,我们计算了在CIFAR-10上训练300步的WideResNet40-10在训练期间的不同时期的Hessian谱,包括有SAM和没有SAM(没有批处理规范,这往往会模糊对Hessian的解释)。由于参数空间的维数,我们使用Lanczos算法来近似Hessian谱。
图3(左)报告了由此产生的Hessian光谱。正如预期的那样,用SAM训练的模型收敛到具有较低曲率的最小值,如在特征值的总体分布中所见,收敛时的最大特征值( λ m a x λ_{max} λmax)(无SAM时约为24,有SAM时为1.0),以及大部分频谱(比率 λ m a x / λ 5 λ_{max}/λ_{5} λmax/λ5,通常用作锐度的代理;在没有SAM的情况下高达11.4,在有SAM的情况中高达2.6)。

6 总结

在这项工作中,我们引入了SAM,这是一种新的算法,通过同时最小化损失值和损失清晰度来提高泛化能力;我们已经通过严格的大规模实证评估证明了SAM的有效性。我们已经为未来的工作提供了许多有趣的途径。在理论方面,m-锐度产生的每个数据点-锐度的概念(与过去通常研究的在整个训练集上计算的全局清晰度形成对比)提出了一个有趣的新视角,通过它来研究泛化。从方法上讲,我们的结果表明,在目前依赖Mixup的稳健或半监督方法中,SAM有可能取代Mixup(例如,提供MentorSAM)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/785174.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32 - SPI硬件外设

配合我的上一篇SPI ​​​​​​通信 协议-CSDN博客一起理解更佳&#xff0c;本文后看 SPI 是由摩托罗拉(Motorola)公司开发的全双工同步串行总线&#xff0c;是 MCU 和外围设备之间进行通信的同步串行端口。主要应用在EEPROM、Flash、RTC、ADC、网络控制器、MCU、DSP以及数字信…

Sleuth--链路追踪

1 链路追踪介绍 在大型系统的微服务化构建中&#xff0c;一个系统被拆分成了许多模块。这些模块负责不同的功能&#xff0c;组合成 系统&#xff0c;最终可以提供丰富的功能。在这种架构中&#xff0c;一次请求往往需要涉及到多个服务。互联网应用构建 在不同的软件模块集上&am…

MySQL Buffer Pool

总结自&#xff1a;小林coding&#xff0c;bojiangzhou 虽然说 MySQL 的数据是存储在磁盘里的&#xff0c;但是也不能每次都从磁盘里面读取数据&#xff0c;这样性能是极差的。 要想提升查询性能&#xff0c;加个缓存就行了嘛。所以&#xff0c;当数据从磁盘中取出后&#xff…

Vue3项目打包优化

前言 本文介绍在实际项目中进行打包优化过程 目前评分 good npm install web-vitals在App.vue加入如下代码测试网页性能指标 import { onLCP, onINP, onCLS, onFCP, onTTFP } from web-vitals/attributiononCLS(console.log) onINP(console.log) onLCP(console.log) onFCP(…

江协科技51单片机学习- p25 无源蜂鸣器

&#x1f680;write in front&#x1f680; &#x1f50e;大家好&#xff0c;我是黄桃罐头&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流 &#x1f381;欢迎各位→点赞&#x1f44d; 收藏⭐️ 留言&#x1f4dd;​…

C语言 | Leetcode C语言题解之第223题矩形面积

题目&#xff1a; 题解&#xff1a; int computeArea(int ax1, int ay1, int ax2, int ay2, int bx1, int by1, int bx2, int by2) {int area1 (ax2 - ax1) * (ay2 - ay1), area2 (bx2 - bx1) * (by2 - by1);int overlapWidth fmin(ax2, bx2) - fmax(ax1, bx1), overlapHei…

气膜建筑如何在文化旅游行业中应用—轻空间

一、气膜建筑简介 气膜建筑是一种新型建筑形式&#xff0c;其主要结构由高强度膜材、空气支撑系统和固定系统组成。通过不断向膜体内部充气&#xff0c;使其形成稳定的内部压力来支撑整个建筑结构。气膜建筑因其建设速度快、成本相对较低、环保节能等优点&#xff0c;近年来在各…

DDR3 (四)

1 DDR3 8倍预取 DDR3相比DDR2外部IO时钟又提高了一倍&#xff0c;因此DDR3外部IO时钟是内核时钟的4倍&#xff0c;再加上双沿采样&#xff0c;因此DDR3可以实现8倍预取 2 DDR3 芯片位宽 DDR3使用8倍预取技术&#xff0c;指的是芯片位宽&#xff08;DQ数据线位宽&#xff09…

HTML实现图片查看与隐藏

你好呀&#xff0c;我是小邹。 在网页设计中&#xff0c;提供一个直观且用户友好的图片查看功能是提升用户体验的重要一环。本文将详细介绍如何使用HTML、CSS和JavaScript来实现图片的查看与隐藏功能。通过本教程&#xff0c;你将学会如何让页面上的图片在点击时放大显示&…

旋转木马案例

旋转木马 如果接口需要的数据格式和原始数据提供的格式有差异 不要去改接口方法 也不要改原始数据 做一层中间件(数据处理函数/方法) <!DOCTYPE html> <html lang"zh-cn"><head><meta charset"UTF-8"><meta name"viewport…

【机器学习】(基础篇二) —— 监督学习和无监督学习

监督学习和无监督学习 本文介绍机器学习的分类&#xff0c;监督学习和无监督学习 监督学习 监督学习&#xff08;Supervised Learning&#xff09;是机器学习的一个核心分支&#xff0c;大部分的机器学习任务都是由监督学习完成的。 它涉及到使用带有标签的训练数据来训练模…

利用 Python 解析pcap文件

1、问题背景 当面对处理网络数据包分析时&#xff0c;pcap文件作为一个常见的文件格式存储了网络数据包的详细记录&#xff0c;它常常被用来进行网络故障排查或安全分析。为了充分利用这些数据&#xff0c;我们需要对其进行解析并提取出有价值的信息&#xff0c;例如数据包类型…

Why Can’t Robots Click The “I’m Not a Robot” Box On Websites?

Clicking a tiny box tells Google all they need to know about your humanity 你好,我是 Jiabcdefh。 if you’ve browsed the internet for any amount of time, you will likely come across a reCAPTCHA box. These boxes appear when you first enter certain websites…

关于Mars3d的入门

关于Mars3d的入门 一. 创建地球&#xff0c;加载瓦片图层二 矢量图层2.1 常用矢量图层2.1.1 GraphicLayer2.1.2 GeoJsonLayer 2.2 矢量图层的点击事件 三 矢量数据四 事件机制 一. 创建地球&#xff0c;加载瓦片图层 // 1. 创建地球let map new mars3d.Map("mars3dContai…

孕产妇(产科)管理信息系统源码 三甲医院产科电子病历系统成品源代码

孕产妇&#xff08;产科&#xff09;管理信息系统源码 三甲医院产科电子病历系统成品源代码 医院智慧孕产是一种通过信息化手段,实现孕产期宣教、健康服务的院外延伸,对孕产妇健康管理具有重要意义,是医院智慧服务水平和能力的体现。实行涵盖婚前检查、孕期保健、产后康复的一…

极客时间:使用Autogen Builder和本地LLM(Microsoft Phi3模型)在Mac上创建本地AI代理

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

C语言之数据在内存中的存储(1),整形与大小端字节序

目录 前言 一、整形数据在内存中的存储 二、大小端字节序 三、大小端字节序的判断 四、字符型数据在内存中的存储 总结 前言 本文主要讲述整型包括字符型是如何在内存中存储的&#xff0c;涉及到大小端字节序这一概念&#xff0c;还有如何判断大小端&#xff0c;希望对大…

python极速入门笔记(三)

1. 函数 #定义函数""" def 函数名&#xff08;参数&#xff09;:...return ** """ def calc_BMI(weight,height):BMIweight/(height**2)if BMI<18.5:category"偏瘦"elif BMI<25:category"正常"elif BMI<30:catego…

红外光气体检测:1.分子振动与红外吸收、检测系统的基本模型和红外敏感元件

分子振动与红外吸收 分子偶极矩的变化频率与分子内原子振动状态有关&#xff1a;μqd&#xff0c;其中μ是偶极矩&#xff0c;q是电荷&#xff0c;d是正负电荷中心距离。 分子在…