1、Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning
中文标题:了解你的邻居:通过空间视觉语言推理改进单视图重建
简介:在计算机视觉领域,从单个视图恢复三维场景几何是一个基本但具有挑战性的问题。传统的深度估计方法只能推断出2.5D场景表示,局限于图像平面上的几何信息。最新的基于辐射场的方法可以重建完整的三维表示,但在处理遮挡区域时仍存在困难,因为在没有视觉观察的情况下,推断几何形状需要对周围环境的语义知识和空间上下文进行推理。
为了解决这个问题,我们提出了一种名为KYN的新方法,用于单视图场景重建。该方法通过推理语义和空间上下文来预测每个点的密度。我们引入了一个视觉语言调节模块,通过细粒度的语义信息来丰富点的特征表示。通过一种语言引导的空间注意机制,我们将整个场景中的点表示进行聚合,从而为每个点产生感知的3D语义上下文密度预测。
我们证明了KYN相对于独立预测每个3D点的密度可以改善三维形状恢复的效果。在KITTI-360数据集上,我们实现了场景和物体重建的最新结果,并展示了在零样本泛化方面相对于先前工作的改进。
更多详细信息可以在我们的项目页面上找到:https://ruili3.github.io/kyn。
2、MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation
中文标题:MVD-Fusion:通过深度一致的多视图生成实现单视图 3D
简介:我们提出了MVD-Fusion,这是一种通过生成多视角一致的RGB-D图像进行单视角3D推断的方法。尽管最近的3D推断方法倡导学习新视角的生成模型,但这些生成结果并不具备3D一致性,因此需要经过蒸馏过程才能生成3D输出。相反,我们直接将3D推断任务转化为生成相互一致的多个视角,并基于深度推断提供一种实现这种一致性的机制。
具体而言,我们训练了一个去噪扩散模型,该模型可以根据单个RGB输入图像生成多视角RGB-D图像,并利用深度估计(包含一些噪声)来获得基于投影的条件,以保持多视角的一致性。我们使用了大规模合成数据集Obajverse以及包含通用摄像机视角的真实世界CO3D数据集来训练我们的模型。
我们证明了我们的方法可以生成比最先进的技术更准确的合成结果,包括基于蒸馏的3D推断和先前的多视角生成方法。此外,我们还评估了我们的多视角深度预测所引起的几何形状,并发现它相对于其他直接3D推断方法能够产生更准确的表示。
3、CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
中文标题:CoMat:将文本到图像扩散模型与图像到文本概念匹配对齐
简介:扩散模型在文本生成图像领域取得了巨大成功,但是缓解文本提示和图像之间不匹配的问题仍然面临挑战。尽管这种不匹配的根本原因还没有得到广泛研究,但作者发现不匹配是由于令牌注意力激活不足引起的。进一步研究表明,这种现象可以归因于扩散模型的条件利用不足,而这是由于其训练范式所导致的。
为了解决这个问题,作者提出了一种名为CoMat的端到端扩散模型微调策略,该策略具有图像到文本概念匹配机制。作者利用图像字幕模型来衡量图像到文本的对齐程度,并指导扩散模型重新关注被忽略的令牌。此外,作者还引入了一种新的属性集中模块来解决属性绑定问题。
在没有任何图像或人类偏好数据的情况下,作者仅使用20K个文本提示来微调SDXL模型,从而获得了CoMat-SDXL模型。广泛的实验结果表明,CoMat-SDXL在两个文本到图像对齐的基准测试中明显优于基线模型SDXL,并取得了最先进的性能水平。