目录
- 【目标检测】
- 【图像超分】
【目标检测】
[ECCV2024] LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction
论文链接:https://arxiv.org/pdf/2407.11335
代码链接:https://github.com/eternaldolphin/LaMI-DETR
现有方法通过利用视觉-语言模型(VLMs)的鲁棒开放词汇识别能力来增强开放词汇目标检测,但存在两个主要挑战:(1)概念表示不足,其中CLIP的文本空间中的类别名称缺乏文本和视觉知识。(2)对基础类别的过拟合倾向,在从VLMs到检测器的转换过程中,开放词汇知识偏向于基础类别。为了应对这些挑战,作者提出了语言模型指令(LaMI)策略,该策略利用视觉概念之间的关系,并将其应用于一个简单而有效的DETR类检测器,称为LaMI-DETR。LaMI利用GPT构建视觉概念,并使用T5研究跨类别的视觉相似性。这些类间关系细化了概念表示并避免了对基础类别的过拟合。全面的实验验证了在同样严格设置下的方法相对于现有方法的优越性能,并且不依赖外部训练资源。URL-DETR在OV-LVIS上达到了43.4的box AP,超过了之前最佳结果7.8 box AP。
[ECCV 2024] Adaptive Multi-task Learning for Few-shot Object Detection
论文链接:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01149.pdf
代码链接:https://github.com/RY-Paper/MTL-FSOD
大多数少样本目标检测方法使用共享特征图进行分类和定位,尽管这两项任务的需求存在冲突。定位需要对尺度和位置敏感的特征,而分类则需要对尺度和位置变化鲁棒的特征
。尽管少数方法已经认识到这一挑战并尝试解决它,但它们可能没有提供全面的解决方案。为了克服少样本目标检测中分类与定位之间的矛盾偏好,本文提出了一种自适应多任务学习方法,该方法具有新颖的精度驱动梯度平衡器。该平衡器通过动态调整两项任务的反向梯度比率,有效地缓解了冲突。此外,基于CLIP的知识蒸馏和分类细化方案被引入,旨在通过利用大型视觉语言模型的能力来增强单个任务的性能。实验结果表明,所提出的方法在基准数据集上一致地显示出比强大的少样本检测基线有所改进。
【图像超分】
[Sana] Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer
机构:NVIDIA、MIT、清华
论文链接:https://arxiv.org/pdf/2410.10629
代码链接:https://nvlabs.github.io/Sana/
本文引入了Sana,一个文本到图像框架,能够高效生成高达 4096 × 4096 4096×4096 4096×4096分辨率的图像。Sana可以以极快的速度合成高分辨率、高质量的图像,并具有强大的文本-图像对齐功能,可在笔记本电脑GPU上部署。核心设计包括:(1)深度压缩自编码器:与传统的AE不同,它们只将图像压缩8倍,训练了一个可以将图像压缩32倍的AE,有效减少了潜在令牌的数量。(2)线性DiT:将DiT中的所有vanilla注意力替换为线性注意力,这在高分辨率下更高效,且不牺牲质量。(3)仅解码器的文本编码器:将T5替换为仅解码器的小型LLM作为文本编码器,并设计复杂的人类指令和上下文学习以增强图像-文本对齐。(4)高效的训练和采样:提出Flow-DPM-Solver来减少采样步骤,通过高效的标题标记和选择加速收敛。结果,Sana-0.6B与现代大型扩散模型(例如Flux-12B)非常具有竞争力,其大小仅为后者的1/20,测量吞吐量快100倍以上。此外,Sana-0.6B可以在16GB的笔记本电脑GPU上部署,生成 1024 × 1024 1024×1024 1024×1024分辨率的图像不到1秒。Sana使内容创作成本低廉。
[2024] Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution
论文链接:https://arxiv.org/pdf/2410.04224
代码链接:https://github.com/JianzeLi-114/DFOSD
扩散模型在现实世界图像超分辨率(Real-ISR)方面取得了优异的性能,但计算成本相当高。当前的方法试图通过知识蒸馏从多步模型中提取单步扩散模型。然而,这些方法带来了相当大的训练成本,并且可能会因为教师模型的局限性而限制学生模型的性能
。为了解决这些问题,本文提出了一种无需蒸馏的单步扩散模型(DFOSD)。具体来说,提出了一个**噪声感知判别器(NAD)来参与对抗性训练,进一步增强生成内容的真实性。此外,通过边缘感知的DISTS(EA-DISTS)**改进了感知损失,以增强模型生成细节的能力。实验表明,与需要数十步甚至数百步的基于扩散的先前方法相比,DFOSD在定量指标和定性评估中都取得了可比甚至更优的结果。与其他单步扩散方法相比,DFOSD也获得了更高的性能和效率。