2024 ICLR Oral 泛读调研（一、关于深度学习训练技术）

调研阅读要求：
（1）先读要点：标题、摘要，随后直接跳到结论。
（2）实验结果：图、表、伪代码。
（3）对比角度：实验环境、数据集、测试方法、评估指标、对比算法和定性定量的效果。

1. “What Data Benefits My Classifier?” Enhancing Model Performance And Interpretability Through Influence-Based Data Selection

2. Candidate Label Set Pruning: A Data-Centric Perspective For Deep Partial-Label Learning

3. Infobatch: Lossless Training Speed Up By Unbi-Ased Dynamic Data Pruning

4. Less Is More: Fewer Interpretable Region Via Submodular Subset Selection

5. Neural Fine-Tuning Search For Few-Shot Learning

6. Quick-Tune: Quickly Learning Which Pre-Trained Model to Finetune And How

7. Small-Scale Proxies for Large-Scale Transformer Training Instabilities

1. “What Data Benefits My Classifier?” Enhancing Model Performance And Interpretability Through Influence-Based Data Selection

主要用于如何通过选择训练数据来提高机器学习模型的性能。

Institution：	加州大学戴维斯分校、布兰迪斯大学、GE HealthCare
Abstract：	分类模型广泛部署于社会之中，需要具备高效用性、公平性和稳健性。目前的研究努力主要集中在固定数据集上改进模型架构和学习算法以实现这一目标。相比之下，本文作者讨论了一个正交但至关重要的问题：给定一个固定的凸学习模型（或针对非凸模型的凸替代模型）和一个感兴趣的函数，作者通过解析特征空间来评估哪些数据对模型有益，然后旨在根据该函数来提高性能。为此，作者提出使用影响力估计模型来从数据特征空间的角度解释分类器的性能。此外，作者提出了基于影响力的数据选择方法，以增强模型的效用、公平性和稳健性。通过在合成和现实世界数据集上进行广泛的实验，作者验证并展示了作者的方法的有效性，不仅适用于常规的分类场景，还包括在更具挑战性的场景下，如分布偏移、公平性攻击、效用规避攻击、在线学习和主动学习。
Key Words:	分类模型、训练数据选择
Aim:	通过选择训练数据来提升分类模型在常规与复杂应用场景下的性能和稳定性。
Methods:	1. 作者提出使用影响力估计模型来从数据特征空间的角度解释分类器的性能。 2. 作者提出了基于影响力的数据选择方法，以增强模型的效用、公平性和稳健性。（针对监督模型的数据剪枝）
Pseudo code:	此算法通过使用决策树来解释数据样本及其特征如何正面或负面地影响分类器的性能。整个算法的目的是建立一个能够评估训练数据对分类器性能影响的模型。通过解释特征空间，这个模型能够指出对模型性能有正面或负面影响的数据点。这种方法特别适用于当作者希望理解模型性能背后的数据动态时。例如，在提升模型的效用、公平性和稳健性方面，这种方法可以帮助作者识别和选择更有益的数据点。这个算法通过移除对模型性能有负面影响的训练数据来优化分类器。该算法的目的是去除那些对模型性能负影响最大的样本，这样可以帮助提高模型的效用性、公平性和稳健性。这种方法假设作者可以通过影响力分析识别那些对模型负面影响最大的样本，并且在有限的预算内进行有效的数据修剪。
Experimental setting:	模型：常见的分类模型，MLP 常规分类数据集：表格数据集Adult、Bank，图像数据集CelebA，文本数据集Jigsaw Toxicity 高级应用场景（如分布偏移、公平性攻击、效用规避攻击、在线学习和主动学习）：分布偏移场景数据集：加利福尼亚州2014年、密歇根州2014、2018年的数据以下省略。。
Keyresults:	综合来看，这两个算法提供了一种系统性方法，不仅帮助理解和解释模型性能背后的数据动因，而且通过优化训练数据集，实现对模型性能的直接改进。这对于开发更准确、更公平、更可靠的机器学习模型至关重要。
Conclusion:	在本文中，作者扩展了影响函数，以评估哪些数据通过解释特征空间改进了给定的凸分类器（或非凸模型的替代物）的效用、公平性和鲁棒性。作者使用基于树的影响估计模型来解释哪些样本特征对模型的性能有积极或消极的贡献。作者还设计了一个数据选择策略来实现性能的改进。通过在合成数据集和真实数据集上的广泛实验，以及不同的应用程序设置，如中毒/逃避攻击、分布转移、在线和主动学习，作者展示了简单和通用的数据选择方法如何可以显著提高性能，并为从业者提供有价值的见解。
Code:	GitHub - anshuman23/InfDataSel

2. Candidate Label Set Pruning: A Data-Centric Perspective For Deep Partial-Label Learning

候选标签集修剪：一个面向深度部分标签学习的以数据为中心的视角

Institution：	电子科大、南洋理工
Abstract：	部分标签学习（PLL）允许每个训练示例配备一组候选标签，其中只有一个是真正的标签。现有的深度PLL研究侧重于以学习为中心的角度，设计各种消除标签歧义的训练策略，即从候选标签集中识别隐藏的真实标签。然而，当候选标签集的规模变得过大时，这些以学习为中心的策略将无法找到用于模型训练的真正标签，从而导致性能下降。这促使作者从以数据为中心的角度来思考，并开创了一个新的PLL相关任务，称为候选标签集剪枝（CLSP），该任务旨在以无训练的方式过滤出某些潜在的错误候选标签。为此，作者提出了第一个基于表示空间和候选标签空间之间的不一致性的CLSP方法。具体来说，对于一个训练实例的每个候选标签，如果它不是表示空间中实例最近邻居的候选标签，那么它有很高的概率成为一个假标签。基于这种直觉，作者采用了每个示例剪枝方案，过滤出特定比例的高概率错误候选标签。从理论上，证明了剪枝错误率的上界，并分析了表示的质量对所提方法的影响。根据经验，在基准模拟和真实世界的PLL数据集上进行的广泛实验验证了CLSP对显著改进许多最先进的深度PLL方法的巨大价值。
Key Words:	Partial-label learning (PLL) 、候选标签剪枝、
Aim:	CLSP的目标是在无需训练的情况下过滤掉一些可能是假的候选标签。
Methods:	提出基于表示空间和候选标签空间之间不一致性的CLSP方法。
Pseudo code:
Experimental setting:	实验数据集：（1）常见分类数据集：C10、C100、tiny-ImageNet （2）真实场景数据集PLL数据集： PASCAL VOC （3）长尾数据集：C10-LT,C100-LT 候选标签生成：生成候选标签的过程涉及不同类型的标签翻转概率模型：均匀生成。标签依赖（LD）生成。实例依赖（ID）生成。不同数据集（如CIFAR-10-LT, CIFAR-100-LT和Tiny-ImageNet）采用不同的概率q来生成这些标签，指示每个标签成为正确标签的可能性。对于标签依赖生成，将根据同一超类中的标签生成具有特定概率分布的层次化候选标签集。实例依赖生成则采用基于原始清洁标签的神经网络预测，并考虑标签级翻转概率，跟随先前的研究。评估指标：提出的CLSP（候选标签集剪枝）方法使用两个从定义1衍生的指标进行评估： α误差：值越小表现越好，指示较低的误差率。 β覆盖率：值越大表现越好，指示对真实标签的更高覆盖率。 F1分数也用于评估剪枝，精确度和召回率以α和β来定义。F1分数是精确度和召回率的调和平均，因此更高的F1分数表示更好的性能。特征提取器：研究考虑了基于ResNet-18架构的不同视觉特征提取器，包括： ResNet-S：使用传统的监督学习。 ResNet-SSL：利用自监督学习（在此背景下提到的SimCLR）。
Keyresults:	在理论上，作者证明了剪枝错误率的上界，并分析了表示质量如何影响所提出的方法。在实证上，通过在标准模拟和真实世界的PLL数据集上的广泛实验，验证了CLSP在显著提高许多最先进的深度PLL方法方面的巨大价值。这项工作可能为处理有噪声标签的学习问题提供了新的视角和解决方案，有助于提高深度学习模型在面对不完整标签数据时的鲁棒性和性能。
Conclusion:	在本文中，作者提出了一个新的与PLL相关的任务，称为候选标签集剪枝（CLSP），旨在减少PLL实例的候选标签集的大小。为此，作者提出了第一个CLSP方法，该方法基于表示空间中的k-NN实例的“否决”统计量来消除PLL实例的某些潜在的错误候选标签。从理论上讲，作者分析了表示质量和标签模糊度对剪枝误差上界的影响。根据经验，在基准模拟和真实PLL数据集上的大量实验验证了所提出的CLSP方法的优越性，从而显著提高了最先进的深度PLL方法。
Code:	https://github.com/salesforce/LAVIS https://github.com/facebookresearch/faiss https://github.com/google-research/simclr

3. Infobatch: Lossless Training Speed Up By Unbi-Ased Dynamic Data Pruning

Institution：	新加坡国立大学、Alibaba Group
Abstract：	数据剪枝的目的是以更低的总体成本获得无损性能。一种常见的方法是过滤掉对训练贡献较小的样本。这可能会导致相比于原始数据的梯度期望偏差。为了解决这一问题，作者提出了一种新的InfoBatch框架，旨在通过无偏动态数据剪枝来实现无损训练加速。具体来说，InfoBatch根据损失分布随机修剪部分信息量较少的样本，并重新调整剩余样本的梯度，以近似原始梯度。作为一个即插即用和架构无关的框架，InfoBatch在分类、语义分割、视觉相关和指令微调任务上持续获得无损训练结果。在CIFAR10/100、ImageNet- 1K和ADE20K上，信息batch可节省40%的总成本。对于MAE和扩散模型，InfoBatch可以分别可以节省24.8%和27%的成本。对于LLaMA指令的微调，结合InfoBatch和最近的共重置选择方法（DQ）可以实现10倍的加速。
Key Words:	数据剪枝、训练加速
Aim:	旨在通过无偏动态数据剪枝来实现无损训练加速。
Methods:	InfoBatch通过基于损失分布随机剪枝掉部分信息量较低的样本，并重新缩放剩余样本的梯度以逼近原始梯度。一、预备知识：二、无偏剪枝和梯度缩放三、退火
Pseudo code:	无
Experimental setting:	数据集：研究在多个数据集上验证了所提方法的有效性，包括CIFAR-10/100、ImageNet-1K、ADE20K以及FFHQ。实施细节：在未特别指定的情况下，InfoBatch默认使用的参数是r = 0.5和δ = 0.875。在分类任务中，使用ResNet18、ResNet-50、ViT-Base(MAE)和Swin-Tiny进行评估。在CIFAR-10/100和ImageNet-1K数据集上，所有模型均采用OneCycle调度器（余弦退火策略）和SGD/LARS优化器进行训练，动量为0.9，权重衰减为5e-4。所有图像都采用了常见的增强转换，比如归一化、随机裁剪和水平翻转。实现基于PyTorch和Timm库。语义分割任务：在ADE20K数据集上进行了语义分割任务的实验，所选网络是具有ResNet-50骨干网络的UperNet。遵循mmsegmentation的默认配置。
Keyresults:	InfoBatch在分类、语义分割、视觉相关和指令微调任务上一致性地获得了无损训练结果。在CIFAR10/100、ImageNet-1K和ADE20K上，InfoBatch无损地节省了40%的总体成本。对MAE和DDPM的相关训练，InfoBatch分别节省了24.8%和27%的成本。对于LLaMA指令微调，结合InfoBatch和最近的核心集选择方法（DQ）实现10倍的加速。
Conclusion:	结论：作者提出了InfoBatch，一个新的框架，以无损训练加速的无偏动态数据修剪。InfoBatch在各种任务和数据集上具有较强的鲁棒性，在分类、分割、视觉相关和指令微调方面实现了无损训练加速。与以前最先进的方法相比，InfoBatch至少减少了10倍的额外开销，因此在实际应用程序中非常实用。本文提供了广泛的实验和理论分析，希望能帮助这一领域的后续研究。限制和未来的工作。 1.去除样本可能会导致模型预测中的偏差。在将信息批处理应用于伦理敏感的数据集时，建议考虑这一限制。目前，作者还没有发现明显的偏见证据。如果作者有发现，作者将公开报告。 2.当前版本的InfoBatch依赖于多时代的训练方案。然而，GPT-3（Brown等人，2020年）和ViT-22B（Dehghani等人，2023年）通常在有限的时期进行训练。信息批处理可能需要对这些任务进行进一步的调整。作者将在未来探索这些任务的新策略。
Code:	GitHub - NUS-HPC-AI-Lab/InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning

4. Less Is More: Fewer Interpretable Region Via Submodular Subset Selection

图像归因算法是一类专门设计来解释和理解机器学习模型特别是深度学习模型在处理图像时的决策过程的工具。其核心目的是识别和突出显示对模型做出特定决策（例如图像分类或目标检测）起到关键作用的图像区域或特征。

图像归因算法的用途包括：

提高可解释性： 通过可视化展示模型决策的依据，帮助研究人员和最终用户理解模型的工作原理。

调试模型： 发现模型可能出现的错误，例如过度关注不相关的图像特征或背景噪声，从而可以对模型进行改进和调优。

增强信任： 在安全敏感或关键的应用领域，如医疗诊断、自动驾驶等领域，向用户展示模型是如何并且为何做出特定预测的，可以提高用户对模型预测的信任。

数据清洗： 帮助识别数据集中的错误标签或低质量数据。

法律和伦理遵从： 在某些法律管辖区，如欧盟的通用数据保护条例（GDPR），可能要求算法决策必须是可解释的。图像归因算法有助于满足这些要求。

研究和教育： 作为一个研究工具，帮助深入了解复杂模型在视觉认知方面的行为。同时，它也可以用作教育工具，帮助学生和新手更好地理解深度学习模型。

Institution：	中科院信工所、网络安全所、新加坡国立、中山大学
Abstract：	图像归因算法旨在识别与模型决策高度相关的重要区域。虽然现有的归因解决方案可以有效地赋予目标元素的重要性，但它们仍然面临以下挑战： 1)现有的归因方法产生不准确的小区域，从而误导正确归因的方向；2)模型不能对预测错误的样本产生良好的归因结果。为了解决上述挑战，本文将上述图像归因问题重新建模为一个子模块子集选择问题，旨在以更少的区域提高模型的可解释性。为了解决对局部区域缺乏关注的问题，作者构造了一个新的子模块函数来发现更准确的小解释区域。为了增强所有样本的归因效应，作者还对子区域的选择施加了四种不同的约束条件，即置信度、有效性、一致性和协作得分，以评估不同子集的重要性。此外，作者的理论分析证实了所提出的函数实际上是子模的。大量实验表明，该方法在两个人脸数据集（Celeb-A和VGG-Face2）和一个细粒度数据集（CUB-200-2011）上均优于SOTA方法。对于正确预测的样本，该方法提高了删除和插入分数，相对于HSIC-归因，平均增加量分别为4.9%和2.5%。对于未预测错误的样本，与HSIC-归因算法相比，作者的方法分别获得了81.0%和18.4%的收益。
Key Words:	图像归因算法、样本重要性预测
Aim:	本文将图像归因问题重新建模为一个子模块子集选择问题，目的是利用更少的区域增强模型的可解释性。
Methods:	为了关注局部区域的不足，文章构建了一个新颖的子模块函数，以发现更准确的小解释区域。一、区域划分二、子模块化功能设计为了增强所有样本的归因效果，文章还对子区域的选择施加了四种不同的约束：置信度、有效性、一致性和协作分数，以评估各个子集的重要性。三、贪婪搜索
Pseudo code:	略
Experimental setting:	数据集：人脸（Celeb-A和VGG-Face2）和细粒度数据集（CUB-200-2011）评价指标：
Keyresults:	略
Conclusion:	本文提出了一种新的方法，将归因问题重新定义为子模子集选择问题。为了解决对局部区域缺乏关注的问题，作者构造了一个新的子模块函数来发现更准确的细粒度解释区域。具体来说，在子区域上实现的四种不同的约束条件被一起制定，以评估不同子集的重要性，即置信度、有效性、一致性和协作得分。该方法在两个人脸数据集（Celeb-A和VGG-Face2）和一个细粒度数据集（CUB-200-2011）上都优于最先进的方法。实验结果表明，该方法可以提高正确预测样本的删除和插入分数。而对于错误预测的样本，作者的方法擅长于识别模型的决策错误背后的原因。
Code:	GitHub - RuoyuChen10/SMDL-Attribution: [ICLR 2024 Oral] Less is More: Fewer Interpretable Region via Submodular Subset Selection

5. Neural Fine-Tuning Search For Few-Shot Learning

Institution：	爱丁堡大学三星人工智能中心，剑桥大学
Abstract：	在少镜头识别中，需要一个在一组类上训练的分类器来快速适应和推广到一个不相交的、新的类集。为此，最近的研究表明，通过精心制作的适应架构进行微调的有效性。然而，这就提出了这样一个问题：如何设计最优的适应策略？在本文中，作者通过神经结构搜索（NAS）的角度来研究这个问题。给定一个预先训练好的神经网络，作者的算法会发现适配器的最佳排列，哪些层可以保持冻结，哪些层可以进行微调。作者将其应用于残差网络和视觉变压器，并报告了Meta-Dataset和Meta-Album两种方法的最新性能。
Key Words:	小样本分类、神经架构搜索、进化算法
Aim:	微调神经网络参数，使得更加适应小样本分类任务。
Methods:	可用于小样本微调的超网结构，两段进化微调搜索机制。
Pseudo code:
Experimental setting:
Keyresults:	引入NAS方法到Few-shot领域，快速微调神经网络权重。
Conclusion:	在本文中，作者提出了NFTS，一个新的框架来发现基于梯度的少镜头学习的最优适应架构。NFTS在其搜索空间中包含了几个最近的强启发式自适应架构，作者表明，通过系统的架构搜索，它们都表现得更好，导致了一个新的最先进的元数据集和元专辑。在本文中，作者使用一个简单而粗糙的搜索空间来与之前的手工设计的适应策略进行比较，在未来的工作中，作者将扩展这个框架，包括更丰富的适应策略和更细粒度的搜索。
Code:	GitHub - peustr/nfts-public

6. Quick-Tune: Quickly Learning Which Pre-Trained Model to Finetune And How

Institution：
Abstract：
Key Words:
Aim:
Methods:
Pseudo code:
Experimental setting:
Keyresults:
Conclusion:
Code:	GitHub - releaunifreiburg/QuickTune: [ICLR2024] Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How

7. Small-Scale Proxies for Large-Scale Transformer Training Instabilities

Institution：
Abstract：
Key Words:
Aim:
Methods:
Pseudo code:
Experimental setting:
Keyresults:
Conclusion:
Code:	Paper under double-blind review