Vid2seq

Vid2Seq 应该是目前为止，个人最中意得一篇能够实际解决对一段视频进行粗略理解得paper了。个人认为它能够真正能解决视频理解是因为它是对一个模型整体做了训练，而不仅仅是通过visual encoders（e.g BLIP/CLIP/…）和其它multi modal 的encoder直接过了个projection，做一个轻松的finetune 就好。光训练projection的路子，划算是划算，但是效果不好，比如video-llama, PG video llava…

例子：（PS：是吧，就比那种光projection的，描述上要更贴合实际，而不是轻飘飘的说个摸棱两可的话）
在这里插入图片描述

对于一段视频，time_input_token 为（n, 2）, text_input_token 为（n，根据tokenize得到的长度），n为切分后的片段。
在这里插入图片描述
它就是直接concat 在前后（图例为语音）

模型输入有分视频画面和拼好后的语音。

仔细观察结构，不管是视频画面还是语音内容，都经过了两个步骤的encoders。等两个内容准备好后，要将它们按照以下形式再次拼接。

 if self.use_video and self.use_speech:
    encoded.last_hidden_state = torch.cat([video, encoded.last_hidden_state

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/522962.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

Vid2seq

相关文章

人工智能研究生前置知识—Anaconda与python工作环境

JavaScript代码小挑战

类脑计算芯片：机器学习的新硬件革命

【Easy云盘 | 第二篇】后端统一设计思想

代码块练习

【Linux网络编程】网络编程套接字(TCP服务器)

Qt+OpenGL-part3

GAMES Webinar 317-渲染专题-图形学 vs. 视觉大模型｜Talk+Panel形式

Kubernetes学习笔记7

客户银行主数据批导

C++ //练习 11.23 11.2.1节练习（第378页）中的map以孩子的姓为关键字，保存他们的名的vector，用multimap重写此map。

使用LIMIT进行分页

主食冻干哪个牌子好？热门大牌真实实测分享，轻松避雷！

如何利用GSG-721与ublox GNSS接收机实现RTK功能仿真？

numpy，matplotilib学习（菜鸟教程）

离职潮下的企业信息安全挑战及防范策略

分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测

基于单片机便携式太阳能充电器系统设计

基于SpringBoot+微信小程序的智慧医疗线上预约问诊小程序

窜天猴AI直播软件功能列表