1、InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
中文标题:InternLM-XComposer2-4KHD:开创性的大型视觉语言模型,可处理从 336 像素到 4K 高清的分辨率
简介:这篇论文介绍了InternLM-XComposer2-4KHD,这是LVLM(大规模视觉-语言模型)领域的一项开创性探索,旨在提升LVLM的分辨率能力,将其推向4K HD(3840 x 1600)及以上水平。同时,为了适应不同情况下的需求,该模型支持从336像素到4K标准的多种分辨率,极大地拓宽了应用范围。具体而言,该研究引入了一种新的扩展技术——动态分辨率与自动块配置,以推动补丁分割的进展。该技术能够保持训练图像的宽高比,并根据预先训练的Vision Transformer(ViT)(336 x 336)自动调整块的数量和布局,从而实现从336像素到4K标准的动态训练分辨率。研究结果表明,将训练分辨率扩展到4K HD能够持续提升性能,而且还没有达到潜在改进的上限。在16个基准测试中,InternLM-XComposer2-4KHD展现出了10个测试超越或与GPT-4V和Gemini Pro相媲美的出色能力。InternLM-XComposer2-4KHD模型系列(拥有7B参数)可以在此GitHub链接上公开获取。
2、Flying With Photons: Rendering Novel Views of Propagating Light
中文标题:与光子一起飞行:渲染传播光的新观点
简介:我们提出了一种成像和神经渲染技术,旨在从新颖的、移动的摄像机视角合成场景中光的传播视频。我们的方法依赖于一种新型的超快成像设备,以皮秒级的时间分辨率捕获首个多视角视频数据集。结合该数据集,我们介绍了一种基于瞬态场的高效神经体积渲染框架。该瞬态场被定义为从三维点和二维方向到高维、离散时间信号的映射,用于表示超快时间尺度下的时间变化辐射度。通过使用瞬态场进行渲染,我们自然地考虑了光的有限传播速度引起的效应,包括由于光传播延迟到相机引起的视角相关外观变化。我们渲染了一系列复杂效果,包括散射、镜面反射、折射和衍射。此外,我们还展示了使用时间扭曲过程消除视角相关的传播延迟、相对论效应的渲染,以及直接和全局光传输的视频合成。
3、Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes
中文标题:从具有状态、姿势和视点变化的图像集合中学习对象的状态不变表示
简介:我们引入了一种称为状态不变性的不变性概念,以增强物体表示的学习,以便进行识别和检索。状态不变性指的是对物体结构形式的变化具有鲁棒性,例如当伞被折叠或衣物被扔在地板上时。尽管存在这样的状态变化,人类通常可以轻松识别物体,这引发了一个问题:我们是否能够设计出具备类似能力的神经结构。为了解决这个问题,我们提出了一个新颖的数据集,名为ObjectsWithStateChange,该数据集记录了从任意视角观察的物体图像中的状态和姿态变化。我们相信,这个数据集将有助于细粒度物体识别和检索的研究,以及具有状态变化能力的物体的检索。我们的研究目标是训练模型,能够生成物体嵌入,并在状态变化的同时对视角、姿态、照明等变换保持不变性。为了展示ObjectsWithStateChange数据集的实用性,我们还提出了一种课程学习策略,该策略利用每个阶段学习的嵌入空间中的相似性关系来指导训练过程。该模型通过比较不同类别内部和跨类别的视觉相似物体来学习具有区分性的特征,以鼓励它区分由于状态变化而具有挑战性的物体。我们相信,这种策略增强了模型捕捉细粒度任务中具有区分性特征的能力,这些任务可能涉及具有状态变化的物体,并在我们的新数据集以及ModelNet40和ObjectPI等其他具有挑战性的多视图数据集上提高了物体级任务的性能。