1、BLINK: Multimodal Large Language Models Can See but Not Perceive
中文标题:BLINK:多模态大型语言模型可以看到但无法感知
简介:我们引入了Blink,这是一个全新的多模态语言模型(LLMs)基准,专注于评估核心视觉感知能力,这是其他评估中所没有的。大多数Blink任务可以在人类“眨眼之间”内解决,例如相对深度估计、视觉对应、取证检测和多视角推理。然而,我们发现这些对感知能力的要求对于当前的多模态LLMs来说存在着巨大挑战,因为它们无法通过自然语言进行解决。Blink将14个经典的计算机视觉任务重组为3,807个多项选择题,每个题目都与一个或多个图像和视觉提示相关联。尽管人类的平均准确率达到了95.70%,但对于现有的多模态LLMs来说,Blink是非常具有挑战性的:即使是最佳表现的GPT-4V和Gemini模型的准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%。这表明最近的多模态LLMs在这些感知能力方面尚未达到人类水平。我们的分析还强调了专业计算机视觉模型在解决这些问题方面更加出色,为未来的改进提供了潜在的方向。我们相信Blink将激发社区的热情,帮助多模态LLMs迎头赶上人类水平的视觉感知能力。
2、VideoGigaGAN: Towards Detail-rich Video Super-Resolution
中文标题:VideoGigaGAN:迈向细节丰富的视频超分辨率
简介:视频超分辨率(VSR)方法在提高视频分辨率的同时展现了令人印象深刻的时间连续性。然而,由于这些方法在生成能力方面存在限制,它们通常会产生比图像对应物更模糊的结果。这带来了一个基本问题:我们是否可以将生成图像升频器的成功扩展到VSR任务中,并同时保持时间连续性?为解决这个问题,我们引入了VideoGigaGAN,一种全新的VSR生成模型,能够生成具有高频细节和时间连续性的视频。VideoGigaGAN基于大规模图像升频器GigaGAN,并通过添加时间模块将其扩展为视频模型,以避免严重的时间闪烁问题。我们针对几个关键问题提出了技术方法,显著提高了升频视频的时间连续性。我们的实验证明,与之前的VSR方法不同,VideoGigaGAN生成的时间连续视频具有更为精细的外观细节。通过与公共数据集上最先进的VSR模型进行比较,并展示了$8\times$超分辨率的视频结果,我们验证了VideoGigaGAN的有效性。
3、SOHES: Self-supervised Open-world Hierarchical Entity Segmentation
中文标题:SOHES:自监督开放世界分层实体分割
简介:这篇摘要介绍了一项新兴的计算机视觉任务——开放世界实体分割。该任务的目标是在不受预定义类别限制的情况下对图像中的实体进行分割,具有在未见过的图像和概念上令人印象深刻的泛化能力。然而,现有的实体分割方法(如SAM)依赖于昂贵的专家注释。本文提出了一种名为自监督开放世界分层实体分割(SOHES)的新方法,它消除了对人工注释的需求。SOHES分为三个阶段:自我探索、自我指导和自我纠正。我们利用预训练的自监督表示,通过视觉特征聚类生成丰富的高质量伪标签。然后,我们使用这些伪标签训练分割模型,并通过师生相互学习的过程来纠正伪标签中的噪声。除了分割实体,SOHES还能捕捉它们的组成部分,提供对视觉实体的分层理解。我们的方法使用原始图像作为唯一的训练数据,在自监督开放世界分割方面取得了前所未有的性能,标志着在没有人工注释掩模的情况下实现高质量的开放世界实体分割的重要里程碑。更多信息可访问项目页面:https://SOHES.github.io。