SOURCE:CV论文--2024.2.22
1、CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples
中文标题:CounterCurate:通过反事实示例增强物理和语义视觉语言组合推理
简介:我们引入了CounterCurate框架,旨在全面提高对比和生成多模态视觉-语言组合推理的能力。我们特别关注了两个尚未充分开发的关键问题:物理基础推理(计数和位置理解)的忽视以及利用高能力的文本和图像生成模型进行语义反事实微调的潜力。我们的工作提供了解决这些差距的方法。
首先,我们关注了多模态模型(例如CLIP和LLaVA)在物理基础组合推理方面的机会。我们使用基于物理基础的图像生成模型GLIGEN进行简单的数据增强,生成微调数据,并在我们新设计的Flickr30k-Positions基准测试中实现了显著的性能提升。CLIP和LLaVA的性能分别提高了33%和37%。
此外,我们利用高性能文本生成和图像生成模型(特别是GPT-4V和DALLE-3),策划了具有挑战性的语义反事实,进一步增强了组合推理能力。在SugarCrepe等基准测试中,CounterCurate的表现优于GPT-4V。
通过CounterCurate框架,我们综合利用了物理基础推理和高能力生成模型的潜力,显著提升了对比和生成多模态视觉-语言组合推理的能力。
2、Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields
中文标题:提高相机位姿和分解低阶张量辐射场联合优化的鲁棒性
简介:本文提出了一种算法,利用仅有的2D图像作为监督,联合优化相机姿态和场景几何形状,并使用分解的低秩张量表示这种形状。我们首先进行了基于1D信号的实验,并将其与3D场景联系起来,发现基于基于体素的NeRF的朴素联合姿态优化容易导致次优解。为了解决这个问题,基于频谱分析,我们提出了在2D和3D辐射场上应用卷积高斯滤波器的方法,以实现从粗到细的训练计划,从而实现联合相机姿态优化。
利用分解的低秩张量的分解属性,我们的方法实现了与暴力3D卷积相当的效果,但只产生了很小的计算开销。为了进一步提高联合优化的鲁棒性和稳定性,我们还提出了平滑的2D监督技术、随机缩放的核参数以及边缘引导的损失掩码技术。
通过广泛的定量和定性评估,我们的提出的框架在新视角合成和优化的快速收敛方面展现出卓越的性能。
3、Video ReCap: Recursive Captioning of Hour-Long Videos
中文标题:视频描述:长达一小时的视频的递归字幕
简介:我们提出了Video ReCap,这是一种递归视频字幕模型,能够处理不同长度的视频输入(从1秒到2小时),并在多个层次结构水平上生成视频字幕。与大多数视频字幕模型只能处理几秒钟的短视频剪辑并输出低级视觉概念文本相比,Video ReCap能够处理现实世界中长达几分钟或几小时的视频,并处理具有复杂分层结构的视频。
递归视频-语言结构利用不同视频层次之间的协同作用,能够高效地处理长达一小时的视频。我们使用课程学习训练方案,从描述原子动作的剪辑级字幕开始,逐渐关注片段级描述,并最终生成长达一小时视频的摘要。此外,我们还引入了Ego4D-HCap数据集,其中包含了8,267个手动收集的长距离视频摘要,用于进一步验证我们的模型。
我们的递归模型能够在不同层次结构水平上灵活生成字幕,并可应用于其他复杂的视频理解任务,例如在EgoSchema上进行的VideoQA。您可以在以下网址找到数据、代码和模型:https://sites.google.com/view/vidrecap。