论文标题
VTimeLLM: Empower LLM to Grasp Video Moments
VTimeLLM:赋能大语言模型理解视频片段
论文链接:
VTimeLLM: Empower LLM to Grasp Video Moments论文下载
论文作者
Bin Huang, Xin Wang, Hong Chen, Zihan Song, Wenwu Zhu (Tsinghua University)
内容简介
这篇论文提出了一种新型的视频语言模型 VTimeLLM,旨在提高大型语言模型(LLM)对视频中具体事件的细粒度理解和时间边界的感知能力。现有视频语言模型在描述视频时往往只能提供粗略的总结,无法准确捕捉特定事件的起止时间。
VTimeLLM 通过一种新颖的边界感知三阶段训练策略,显著提升了在时间相关视频理解任务中的表现,如时间视频定位和密集视频描述任务。此外,VTimeLLM 在视频对话基准测试中也表现出色,展示了其在跨模态理解和推理方面的优越能力。
关键点
1.问题背景:
现有的视频语言模型在理解视频内容时,无法准确捕捉特定事件的时间边界,导致在细粒度视频理解任务中表现不佳.
2.研究方法:
三阶段训练策略:
- 第一阶段:特征对齐:通过图像-文本对训练,将视觉特征与语言模型的语义空间对齐.
- 第二阶段:边界感知:设计单轮和多轮问答任务,利用大规模多事件视频-文本数据训练模型,增强其对时间边界的感知能力.
- 第三阶段:指令微调:创建高质量对话数据集进行指令微调,使模型更好地理解人类意图并进行精确的时间理解.
3.模型架构:
VTimeLLM 包括一个视觉编码器和一个视觉适配器,用于将视频信息转换为文本空间,以及一个定制的语言模型来理解文本和视频内容.
4.实验结果:
在时间视频定位和密集视频描述任务中,VTimeLLM 显著优于现有的视频语言模型.
在视频对话基准测试中,VTimeLLM 展示了其在跨模态理解和推理方面的优越能力,尤其是在细节描述方面取得了显著提升.
5.贡献:
提出了首个边界感知的视频语言模型 VTimeLLM.
提出了新颖的边界感知三阶段训练策略,有效提升了模型的时间理解能力.
通过广泛的实验验证了 VTimeLLM 在多种细粒度时间相关视频任务中的优越性能.
CV-LLM必读论文合集:
CV-LLM必读论文合集
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!
论文代码链接
GitHub - huangb23/VTimeLLM: [CVPR'2024 Highlight] Official PyTorch implementation of the paper "VTimeLLM: Empower LLM to Grasp Video Moments".