【多模态检索】Coarse-to-Fine Visual Representation

快手文本视频多模态检索论文

论文:Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning
链接:https://arxiv.org/abs/2401.00701

摘要

近些年,基于CLIP的text-to-video检索方法广为流行,但大多从视觉文本对齐方法上演进。按照原文:design a heavy fusion block for sentence (words)-video (frames) interaction,而忽视了复杂度和检索效率。

  • 升级点
  • 本文采用多粒度视觉特征学习,捕获从抽象到具体的视觉内容。Multi-granularity visual feature learning, ensuring the model’s comprehensiveness in capturing visual content features spanning from abstract to detailed levels during the training phase.
  • 设计两阶段检索框架,优点在于 balances the coarse and fine granularity of retrieval content.
    • 在训练阶段,设计一个parameter-free text-gated interaction block (TIB) 模块用于细粒度视觉表征学习并嵌入一个额外的 Pearson Constraint来优化跨模态表示学习。
    • 在检索阶段,使用粗粒度视觉表征快速检索topk结果,然后使用细粒度视觉表示rerank(recall-then-rerank pipeline)。
  • 效果:nearly 50 times faster
  • 难点:对比原始图像文本匹配任务(包含较少的视觉信息),聚合整个视频表示易导致过度抽象以及误导。在视觉文本检索任务中,一个句子通常只描述一个感兴趣的视频子区域。现有工作很多不够合理与成熟,衍生出很多CLIP的变体,大体分为两个方向。例如CLIP4Clip,仅仅是将预训练的CLIP简单进行MeanPooling就从image-text迁移到video-text领域。
    • 设计a heavy fusion block来加强视觉和文本的交互以达到模态间更好地对齐的目的;
    • 优化text-driven video representations,keep multi-grained features including video-level and frame-level for brute-force search。
  • 近些年方法虽然有效果提升,但却需要巨大的计算成本(text-video similarity calculation)。
    在这里插入图片描述
    过于细粒度的计算可能会放大视频局部噪声,降低检索效率。需要在有效性和效率上做trade-off。

方法

  • 整体架构
    在这里插入图片描述

  • 特征输入:a video v consists ofT sequential frames {f1, f2, …, fT |fi ∈ RH ×W ×C};each frame is divided into N patches {f 1i , f 2i , …, f N i |f n i ∈RP×P×C} with P × P size;text t。

  • 模型结构

    • 视觉端

      • a spatial encoder (SE) with 12 transformer layers initialized by the public CLIP checkpoints
      • a temporal encoder (TE) with 4 transformer layers to model temporal relationship among sequential frames, [CLS] enocde patch to frame(0th patch feature represent frame)
      • a MeanPooling layer (MP) to aggregate all frame-level features into a text-agnostic feature vector
        注:patch 和 frame都包含位置编码在这里插入图片描述
    • 视觉文本交互 – Text-Gated Interaction Block

      • 简单的attention机制,π is the temperature,决定多少视觉信息被保留(A small value of π only emphasizes those most relevant visual cues, while a large value pays attention to much more visual cues.)
      • 未引入任何参数
        在这里插入图片描述
  • 损失函数(Inter- and Intra-Feature Supervision Loss)

    • 数据形式:Each batch of B video-text pairs,in each pair, the text tb is a corresponding description of the video vb
    • Contrastive Loss for Inter-Feature Supervision - infoNCE loss,batch内其他为负样本
      在这里插入图片描述
    • Pearson Constraint for Intra-Feature Supervision
      在这里插入图片描述
      在这里插入图片描述
    • Total Loss
      在这里插入图片描述
  • 检索中的两阶段策略 - To balance the efficiency and effectiveness

    • 使用VL1作为tok召回阶段特征
    • rerank这些召回结果用VL2和VL3
    • 两阶段的优点:效率提升 & 过于细粒度的特征可能会导致对局部噪声的过度关注。

实验

主实验:
在这里插入图片描述

其他数据集:
在这里插入图片描述
消融实验:
可以看到去掉帧粒度的文本交互特征指标下降明显。当去掉所有文本交互特征时,只使用视觉特征会引入很多噪声(引入喝多与文本无关的特征),mislead the matching process。
在这里插入图片描述
top100的下降可能是由于重新排序阶段过度关注视觉局部细节,增加 top-k 引入的噪声会对重新排序阶段造成更多的干扰
在这里插入图片描述
Re-ranking 消融
在这里插入图片描述
Intra-Feature Pearson Constraint消融
在这里插入图片描述
Visualization of Coarse-to-Fine Retrieval
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/548907.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FreeRTOS_day1

1.总结keil5下载代码和编译代码需要注意的事项 下载代码前要对仿真进行设置 勾选后代码会立刻执行 勾选后会导致代码不能执行 写代码的时候要写在对应的begin和end之间,否则会被覆盖 2.总结STM32Cubemx的使用方法和需要注意的事项 ①打开软件,新建工程…

初学python记录:力扣924. 尽量减少恶意软件的传播

题目: 给出了一个由 n 个节点组成的网络,用 n n 个邻接矩阵图 graph 表示。在节点网络中,当 graph[i][j] 1 时,表示节点 i 能够直接连接到另一个节点 j。 一些节点 initial 最初被恶意软件感染。只要两个节点直接连接&#x…

BK9535可替代BK9531 BEKEN博通 无线高品质语音发射传输芯片 提供开发资料

概 述 BK9531已经停产,厂家推出升级替代芯片BK9535 BK9535芯片是用于无线高品质语音发射传输的芯片,芯片覆盖频段范围为:V段(160~270MHz)、U段(450~980MHz)、1G频段(980~1176MHz&a…

一款可自动跳广告的安卓App开源项目

开放权限有风险,使用App需谨慎! gkd 基于 无障碍 高级选择器 订阅规则 的自定义屏幕点击 APP 功能 基于 高级选择器 订阅规则 快照审查, 它可以实现 点击跳过任意开屏广告/点击关闭应用内部任意弹窗广告, 如关闭百度贴吧帖子广告卡片/知乎回答底…

HarmonyOS开发案例:【智能煤气检测】

样例简介 智能煤气检测系统通过实时监测环境中烟雾浓度,当一氧化碳浓度超标时,及时向用户发出警报。在连接网络后,配合数字管家应用,用户可以远程配置智能煤气检测系统的报警阈值,远程接收智能煤气检测系统报警信息。…

华为再次布局新行业:合作伙伴已超前谋划,该领域将大有可为

华为布局新行业 华为向外界公布了一个重要信息:在过去的三年里,尽管受到美国的制裁,华为仍然成功地完成了超过13000个元器件的国产替代研发,以及4000多块电路板的迭代开发。 不仅在硬件领域取得了显著成就,在软件和生…

AutoMQ 登顶 Hacker News: 开源项目流量的第一桶金以及经验分享

01 事件回顾 2024 年 4 月 8 日中午,随着 AutoMQ 的一则简短的标题内容:Show HN: AutoMQ - A Cost-Effective Kafka Distro That Can Autoscale in Seconds[1] 成功登顶 Hacker News (HN) ,我们迎来了大量优质、精准的…

为什么一开始不被看好的单片机,现在概括了所有数据产品行业?

这主要归因于技术和认知的局限。 在其发展初期,单片机的性能、存储容量以及开发工具都颇为有限,难以契合复杂应用的种种需求。彼时,许多人确实难以洞察到它的未来走向。 然而,时过境迁,人们逐步领悟到了单片机在各个…

密码学 | 椭圆曲线数字签名方法 ECDSA(下)

目录 10 ECDSA 算法 11 创建签名 12 验证签名 13 ECDSA 的安全性 14 随机 k 值的重要性 15 结语 ⚠️ 原文:Understanding How ECDSA Protects Your Data. ⚠️ 写在前面:本文属于搬运博客,自己留着学习。同时,经过几…

部署Zabbix代理服务器

目录 1.准备环境 2.设置 zabbix 的下载源 3.安装 zabbix 所需的数据库 3.1添加数据库用户,以及 zabbix 所需的数据库信息 3.2导入数据库信息 4.修改 zabbix-proxy 配置文件 5.启动 zabbix-proxy 6.在所有主机上配置 hosts 解析 7.在 Web 页面配置 agent 代…

市面上加密混淆软件的比较和推荐

引言 市面上有许多加密混淆软件可供开发者使用,但哪些软件是最好用的?哪些软件受到开发者的喜爱?本文将根据一次在CSDN上的投票结果,为大家介绍几款在程序员中普及度较高的加密软件。以下是投票结果,希望能对大家的选择…

什么是组网?如何远程组网?

在当今数字化时代,组网已成为企业提高工作效率、节省时间和成本的关键技术。组网是将多台计算机或其他网络设备连接起来,形成一个互联互通的网络系统。本文将概述组网的主要目的、实现方式及其价值,并深入分析远程组网策略。 1. 组网目的与价…

BK9531 BK9532上海博通BEKEN 提供开发资料

.概述 BK9531/BK9532 芯片是用于无线高品质语音传输的芯片组,包括发射芯片BK9531 和接收芯片 BK9532,每个芯片覆盖频段范围为:V 段160~270MHz 和 U 段500~980MHz。 BK9531/BK9532 采用数字调制和高性能音频 ADC 和 DAC,配合极低延…

idea2023专业版安装破解+maven配置教程

前言 上一篇文章已经介绍了maven在Win10系统的安装配置教程。基于Win10的maven配置环境,本篇文章将介绍idea2023的安装破解教程及maven在idea2023的配置教程(同时会将maven在idea2023的配置教程内容补充至上一篇文章)。 一、idea2023下载安…

再也不想用丑东西了!一个高颜值的备忘录,分享给你们【文末领源码】

谁工作中不得有点丢三落四的,但是被老大点名批评确实有点过不去了,提醒小伙伴们把必要的事情挂出来,同事说虽然已经有一款系统,但展示的不好看,根本不想用,于是找到了一款颜值还不错的备忘录工具 -- memo …

工作的第五天了

1.今天内容 1.现在的基本都增删改查都有 2.下一步做规格商品添加规格的方式 3.商品规格比较特殊 4.我们添加一个商品。通用一个商品,然后下面添加规格信息 5.如何做 6.第一个是添加商品 7.商品对应多个属性方式,简单来说是一个一对多的方式&#x…

WPF Extended.Wpf.Toolkit 加载界面

1、NuGet 中安装 Extended.Wpf.Toolkit 。 2、在MainWindow.xaml中添加xmlns:tk"http://schemas.xceed.com/wpf/xaml/toolkit" 。 MainWindow.xaml 代码如下。 <Window x:Class"WPF_Extended_Wpf_Toolkit_Loading.MainWindow" xmlns"ht…

基于ssm酒吧存酒系统论文

摘 要 社会发展日新月异&#xff0c;用计算机应用实现数据管理功能已经算是很完善的了&#xff0c;但是随着移动互联网的到来&#xff0c;处理信息不再受制于地理位置的限制&#xff0c;处理信息及时高效&#xff0c;备受人们的喜爱。本次开发一套酒吧存酒系统有管理员和用户两…

Adobe联手OpenAI,AI视频编辑新功能震撼上线!

Adobe 尝试与 OpenAI 合作以添加AI工具 前言 就在北京时间4月15日 &#xff0c; Adobe准备开辟制作软件的新道路&#xff0c;该公司正处于允许第三方生成式人工智能工具&#xff08;如OpenAI的Sora等&#xff09;进入其广泛使用的视频编辑软件的早期阶段。那么这次Adobe与OpenA…

MathJax —— Vue3的使用方法

版本&#xff1a; mathjax3 需要实现效果 一、使用方式 1. index.html 中引入 <!-- 识别单行&#xff0c;行内&#xff0c;\( \)样式的公式 --><script>MathJax {tex: {inlineMath: [[$, $],[$$, $$], [\\(, \\)]]},};</script><script id"MathJ…