1、Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions
中文标题:单目深度估计的扩散模型:克服具有挑战性的条件
简介:本文提出了一种新颖的方法,旨在解决单张图像深度估计任务中具有挑战性的、超出分布范围的数据所带来的复杂性。主要包括以下创新点:
生成具有全面挑战和相关深度信息的新的、用户定义的场景:我们利用具有深度感知控制的先进文本到图像扩散模型,生成高质量图像内容,并保持生成和源图像之间的三维结构的一致性。
通过自我蒸馏协议对深度预测网络进行微调:我们利用自我蒸馏协议,考虑使用我们生成的图像及其对简单、不具挑战性场景的深度预测,对任何单眼深度网络进行微调。
验证方法的有效性和多功能性:我们针对我们的目的量身定制了基准实验,结果表明了我们提案的有效性和多功能性。
与现有方法相比,我们提出的方法能够在单张图像深度估计任务中有效处理超出分布范围的复杂数据,并通过自我蒸馏的方式进一步提升网络性能。这一创新为该领域的发展提供了新的思路和技术支撑。
2、PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects
中文标题:PartGLEE:识别和解析任何对象的基础模型
简介:我们提出了PartGLEE, 这是一个用于定位和识别图像中物体及其部件的部件级基础模型。PartGLEE的主要创新点如下:
1. 统一框架:PartGLEE能够在开放世界场景中实现实例的检测、分割和定位,以任意粒度。
2. 层次关系建模:我们提出了一个Q-Former来构建对象和部件之间的分层关系,将每个对象解析为相应的语义部件。
3. 知识扩展:通过结合大量的对象级数据,分层关系可以得到扩展,使得PartGLEE能够识别各种各样的部件。
4. 性能优越:我们进行了全面的实验验证,PartGLEE在各种部件级任务上实现了最先进的性能,并在对象级任务上获得了竞争性的结果。
5. 认知能力增强:进一步的分析表明,PartGLEE的分层认知能力能够促进mLLMs对图像的详细理解。
相比之前的GLEE模型,PartGLEE显著增强了分层建模能力和部件级感知能力。我们将在https://provencestar.github.io/PartGLEE-Vision/上发布该模型和代码。该工作为物体和部件级视觉理解带来了重要进展。
3、SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation
中文标题:SAM-CP:将 SAM 与可组合提示相结合,实现多功能分段
简介:这篇论文提出了一种称为SAM-CP的简单方法,可以在SAM模型的基础上建立两种可组合的提示类型,用于灵活的语义分割。
主要创新点如下:
1. 提示类型:
- Type-I提示判断SAM块是否与文本标签对齐
- Type-II提示判断是否具有相同文本标签的两个SAM块也属于同一实例
2. 统一框架:
- 计算(语义和实例)查询和SAM块之间的亲和力
- 合并与查询具有高亲和力的块,以降低处理大量语义类别和块的复杂性
3. 广泛适用性:
- 实验表明,SAM-CP在开放和封闭领域中均实现了语义、实例和全景分割
- 在开放词汇分割中实现了最先进的性能
这种新颖的提示组合方法有助于赋予视觉基础模型(如SAM)多层次的语义感知能力,为语义分割等任务带来显著提升。该方法具有广泛适用性,为后续研究提供了新的思路与技术支撑。