论文笔记:是什么让多模态学习变得困难?

整理了What Makes Training Multi-modal Classification Networks Hard? 论文的阅读笔记

  • 背景
  • 方法
    • OGR
    • 基于最小化OGR的多监督信号混合
    • 在实践中的应用
  • 实验

背景

  直观上,多模态网络接收更多的信息,因此它应该匹配或优于其单峰网络。然而,最好的单模态网络往往优于多模态网络。这种观察在不同的模态组合以及不同的视频分类任务和基准上是一致的。如表一所示:

  本文提出了两个主要原因:多模态网络往往容易过拟合;不同的模态过拟合和泛化率不同,因此使用单一优化策略联合训练它们是次优的。图一展示了一些尝试的改进,包括dropout、早停、SE门和NL门等,然而,这些方法都无法解决这些问题。
  本文提出了一种称为顺应性混合(Gradient-Blending)的技术缓解这种情况,这是一种新的训练方案,与任务无关、与架构无关,通过多个监督信号的最佳混合来最小化OGR(在下文中提出)。

方法

OGR

  我们首先假设单峰学习和多峰学习的基本形式:
L ( C ( φ m ( X ) ) , y ) \mathcal{L}(\mathcal{C}(\varphi_m(X)),y) L(C(φm(X)),y) L m u l t i ( C ( φ m 1 ⊕ φ m 2 ⊕ . . .   φ m k ) , y ) \mathcal{L}_{multi}(\mathcal{C}(\varphi_{m_1}\oplus\varphi_{m_2}\oplus...\ \varphi_{m_k}),y) Lmulti(C(φm1φm2... φmk),y)  其中, C \mathcal{C} C表示分类器, φ m \varphi_m φm表示模态特定权重, y y y是标签。多峰网络是单峰网络的超集,对于多峰网络中任何一个模态,通过选择最好权重,可以构造与单峰网络同样好的解,然而在实际情况,这是不可能的。
  过拟合通常被理解为在训练集中学习到的模式不会推广到目标分布。基于这一点,我们可以将第 N N N个时期的过拟合定义为 L N T \mathcal{L}_N^T LNT L N V \mathcal{L}_N^V LNV之间的差距。两个模型检查点之间的训练质量可以通过过拟合和泛化的变化来衡量(图3中的 Δ G \Delta G ΔG Δ O \Delta O ΔO)。在检查点 N N N N + n N+n N+n之间,我们可以定义过拟合与泛化比(OGR): O G R ≡ ∣ Δ O N , n Δ G N , n ∣ = ∣ Δ O N + n − O N L N ∗ − L N + n ∗ ∣ OGR\equiv|\frac{\Delta O_{N,n}}{\Delta G_{N,n}}|=|\frac{\Delta O_{N+n}-O_N}{\mathcal{L}_N^*-\mathcal{L}_{N+n}^*}| OGRΔGN,nΔON,n=LNLN+nΔON+nON
在这里插入图片描述
  直观上,我们可以在训练期间最小化 O G R OGR OGR,但是有两个麻烦:1、全局优化OGR将是非常昂贵的。2、如果是欠拟合模型,那么这个损失会非常小。
  因此,我们建议解决一个无穷小问题:给定梯度的几个估计,将它们混合以最小化无穷小 O G R 2 OGR^2 OGR2,我们将此混合应用于优化流程。每个梯度步长在验证损失的每单位增益上尽可能少地增加泛化误差,从而最大限度地减少过拟合。在多模态设置中,这意味着我们将来自多个模态的梯度估计结合起来,并最小化OGR2,以确保每个梯度步长现在产生的增益不比单个最佳模态的增益差。这个 L 2 L^2 L2问题允许一个简单的封闭式解决方案,易于实现,并且在实践中工作得很好。
  考虑一个单一的参数更新步骤,其估计为梯度。由于两个检查点之间的距离很小,我们使用一阶近似: Δ G ≈ < ∇ L ∗ , g ∗ > \Delta G ≈ <\nabla \mathcal{L}^*,g^*> ΔG≈<L,g> Δ O ≈ < ∇ L T − ∇ L ∗ , g ∗ > \Delta O ≈ <\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^*> ΔO≈<LTL,g>。因此,对于单个向量 g ∗ g^* g O G R 2 OGR^2 OGR2为: O C R 2 = ( < ∇ L T − ∇ L ∗ , g ∗ > < ∇ L ∗ , g ∗ > ) 2 OCR^2=(\frac{<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^*>}{<\nabla \mathcal{L}^*,g^*>})^2 OCR2=(<L,g><LTL,g>)2

基于最小化OGR的多监督信号混合

  我们可以通过为每个模态的特征和融合特征分别添加分类器来获得梯度的多个估计(下图c)。通过分别反向传播每个损失来获得每模态梯度 { g ^ i } i = 1 k \{\hat g_i\}_{i=1}^k {g^i}i=1k。我们的下一个结果允许我们将它们全部混合到具有更好泛化行为的单个向量中。
在这里插入图片描述  设 { v k } 0 M \{v_k\}_0^M {vk}0M L ∗ \mathcal{L}^* L的一组估计值,其过拟合近似为 E [ < ∇ L T − ∇ L ∗ , v k > < ∇ L T − ∇ L ∗ , v j > ] = 0 , j ≠ k \mathbb{E}[<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k><\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_j>]=0,j\neq k E[<LTL,vk><LTL,vj>]=0,j=k。给定约束 ∑ k w k = 1 \sum_kw_k=1 kwk=1,该问题的最优权重 w k ∈ R w_k\in \mathcal{R} wkR w ∗ = a r g m i n E [ ( < ∇ L T − ∇ L ∗ , ∑ k w k v k > L ∗ , ∑ k w k v k ) 2 ] w^*=arg min \mathbb{E}[(\frac{<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,\sum_kw_kv_k>}{\mathcal{L}^*,\sum_kw_kv_k})^2] w=argminE[(L,kwkvk<LTL,kwkvk>)2]  are given by: w k ∗ = 1 Z < L ∗ , v k > σ k 2 w^*_k=\frac{1}{Z}\frac{<\mathcal{L}^*,v_k>}{\sigma_k^2} wk=Z1σk2<L,vk>  其中, σ k 2 ≡ E [ < ∇ L T − ∇ L ∗ , v k > ] \sigma_k^2\equiv\mathbb{E}[<\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k>] σk2E[<LTL,vk>] Z Z Z是一个标准化常数 Z = ∑ k < L ∗ , v k > 2 σ k 2 Z=\sum_k\frac{<\mathcal{L}^*,v_k>}{2\sigma_k^2} Z=k2σk2<L,vk>

在实践中的应用

  我们采用多任务架构来构建上述优化的近似解决方案。即为所有模态构建单独的损失。在每个反向传播步骤中,模态 m i m_i mi梯度是 ∇ L i \nabla \mathcal{L}_i Li,来自融合损失的梯度记为 L k + 1 \mathcal{L}_{k+1} Lk+1。产生混合梯度: L b l e n d = ∑ i = 1 k + 1 w i L i \mathcal{L}_{blend}=\sum_{i=1}^{k+1}w_i\mathcal{L}_i Lblend=i=1k+1wiLi  通过适当选择 w i w_i wi,就产生了实现梯度混合的方便方法。直观地,损失重新加权重新校准学习时间表,以平衡不同模态的泛化/过拟合率。
  在实践中,我们无法看到目标分布结果(测试集)测量OGR。为了测量OGR,我们保留训练集的子集V来近似目标分布。算法1提供了一种连续混合权重估计。以及两种不同的梯度混合方法(算法2,算法3):1.离线渐变混合(Offline Gradient-Blending):只计算一次权重,并使用一组固定权重来训练整个时期。2.在线渐变混合(Online Gradient-Blending):完整版本,定期重新计算权重(例如,每n个epoch称为超级epoch),并使用超级epoch的新权重来训练模型。

实验

  本文使用三种视频数据集进行消融:Kinetics、mini-Sports和mini-AudioSet:
在这里插入图片描述
  本文的方法超过了单峰和后期融合。本文进一步验证了朴素联合训练中的过拟合问题:
在这里插入图片描述
  在这两个数据集上,音频模型过拟合最多,视频过拟合最少。与仅视频模型相比,朴素联合音频-RGB模型具有较低的训练误差和较高的验证误差;即朴素音频-RGB联合训练增加了过拟合,解释了与单独视频相比的准确性下降。我们扩展了分析,考虑了三种模态(音频、RGB和光流)的所有4种可能组合。在每种情况下,朴素联合训练的验证准确度都明显低于最佳单流模型(表1),而训练准确度几乎总是更高。
  不同优化器的比较:
在这里插入图片描述
  表四给出了本文的方法与朴素联合训练和最佳单流模型的比较:
在这里插入图片描述
  G-Blend在不同的基准测试和任务上优于所有基线方法:
在这里插入图片描述
  在AudioSet上与最新方法的比较。GBlend在性能上大大优于现有的方法:
在这里插入图片描述  与EPIC-Kitchen最先进方法的比较:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/939296.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

唯品会Android面试题及参考答案

HTTP 和 HTTPS 的区别是什么&#xff1f;你的项目使用的是 HTTP 还是 HTTPS&#xff1f; HTTP 和 HTTPS 主要有以下区别。 首先是安全性。HTTP 是超文本传输协议&#xff0c;数据传输是明文的&#xff0c;这意味着在数据传输过程中&#xff0c;信息很容易被窃取或者篡改。比如&…

LWIP协议:三次握手和四次挥手、TCP/IP模型

一、三次握手&#xff1a;是客户端与服务器建立连接的方式&#xff1b; 1、客户端发送建立TCP连接的请求。seq序列号是由发送端随机生成的&#xff0c;SYN字段置为1表示需要建立TCP连接。&#xff08;SYN1&#xff0c;seqx&#xff0c;x为随机生成数值&#xff09;&#xff1b;…

Kafka Streams 在监控场景的应用与实践

作者&#xff1a;来自 vivo 互联网服务器团队- Pang Haiyun 介绍 Kafka Streams 的原理架构&#xff0c;常见配置以及在监控场景的应用。 一、背景 在当今大数据时代&#xff0c;实时数据处理变得越来越重要&#xff0c;而监控数据的实时性和可靠性是监控能力建设最重要的一环…

Medium是什么,Medium能干嘛,如何用开通medium会员

1.背景介绍 1.1 什么是medium medium是国外一个内容创作和分享平台。 主要用户来自美国&#xff0c;每月有26万的访问量。 网址&#xff1a; Medium官网 平台注重优质、专业的内容。 这个平台有2点比较吸引人&#xff1a; ① 内容优质、专业 ② 在上面写作&#xff0c;能…

【实验17】不同优化算法的比较分析

目录 1 不同优化算法比较分析-2D可视化实验 1.1 优化算法的实验设定(以函数为例) 1.2 学习率调整优化策略 1.1.2 AdaGrad算法 1.1.2 RMSprop算法 1.3 梯度估计修正优化策略 1.3.1 动量法 1.3.2 Adam算法 1.4 完整代码 1.5 函数 的优化算法比较 2 不同优化算法比较分…

复习打卡大数据篇——Hadoop HDFS 01

目录 1. HDFS简介 2. HDFS基本操作 3. HDFS原理 1. HDFS简介 HDFS概念&#xff1a; HDFS是一个分布式的文件系统。分布式意味着多台机器存储&#xff0c;文件系统&#xff0c;就是用来存储文件、存储数据。是大数据最底层一个服务。 HDFS设计目标&#xff1a; 故障的检测…

Odoo:免费开源ERP的AI技术赋能出海企业电子商务应用介绍

概述 伴随电子商务的持续演进&#xff0c;客户对于便利性、速度以及个性化服务的期许急剧攀升。企业务必要探寻创新之途径&#xff0c;以强化自身运营&#xff0c;并优化购物体验。达成此目标的最为行之有效的方式之一&#xff0c;便是将 AI 呼叫助手融入您的电子商务平台。我们…

基于base32的兑换码算法(思路)

base32编码指的是基于32个可打印字符对任意字节数据进行编码&#xff1a;大写字母A-Z以及数字2-7。 兑换码要求:长度为10个字符 如果将这32个字符依次放到一个base数组中&#xff0c;那么最大的下标就是31。我们将要编码的任意字节数据按照五个bit为一组进行划分&#xff0c;…

前端开发环境(vue)

1. 安装nvm管理nodejs的版本 1. 配置nvm 2. 用npm安装nodejs,选则nodejs版本,这是js的运行环境 3 . 安装npm,这是前端的包管理器 npm是nodejs开发的包管理器,现在下载了nodejs就默认下载npm了,绑在一块了,不用 1. npm的中央仓库 2. npm私服仓库 换库 npm config set r…

第十七章:反射+设计模式

一、反射 1. 反射(Reflection)&#xff1a;允许在程序运行状态中&#xff0c;可以获取任意类中的属性和方法&#xff0c;并且可以操作任意对象内部的属 性和方法&#xff0c;这种动态获取类的信息及动态操作对象的属性和方法对应的机制称为反射机制。 2. 类对象 和 类的对象(实…

arduino继电器与电机水泵的使用

首先说一句&#xff0c;真受不了网上的教程&#xff0c;大海里捞金&#xff0c;要不上来了就讲原理&#xff0c;怎么具体使用一句不说&#xff0c;要么炫技来了。 继电器&#xff0c;简单来说把他当开关看&#xff0c;通过小电流控制大电流(原理去看其他视频)&#xff0c;要记…

【Java Web】Axios实现前后端数据异步交互

目录 一、Promise概述 二、Promise基本用法 三、async和await关键字 四、Axios介绍 4.1 Axios基本用法 4.2 Axios简化用法之get和post方法 五、Axios拦截器 六、跨域问题处理 一、Promise概述 axios是代替原生的ajax实现前后端数据交互的一套新解决方案&#xff0c;而…

网络编程 03:端口的定义、分类,端口映射,通过 Java 实现了 IP 和端口的信息获取

一、概述 记录时间 [2024-12-19] 前置文章&#xff1a; 网络编程 01&#xff1a;计算机网络概述&#xff0c;网络的作用&#xff0c;网络通信的要素&#xff0c;以及网络通信协议与分层模型 网络编程 02&#xff1a;IP 地址&#xff0c;IP 地址的作用、分类&#xff0c;通过 …

webdriver 反爬虫 (selenium反爬虫) 绕过

1. webdriver 反爬虫原理 爬虫程序可以借助渲染工具从动态网页中获取数据。 在这个过程中&#xff0c;“借助”其实是通过对应的浏览器驱动&#xff08;即WebDriver&#xff09;向浏览器发出指令的行为。因此&#xff0c;开发者可以根据客户端是否包含浏览器驱动这一特征来区分…

JAVA 零拷贝技术和主流中间件零拷贝技术应用

目录 介绍Java代码里面有哪些零拷贝技术java 中文件读写方式主要分为什么是FileChannelmmap实现sendfile实现 文件IO实战需求代码编写实战IOTest.java 文件上传阿里云&#xff0c;测试运行代码看耗时为啥带buffer的IO比普通IO性能高&#xff1f;BufferedInputStream为啥性能高点…

系统移植——Linux 内核顶层 Makefile 详解

一、概述 Linux Kernel网上下载的版本很多NXP等有自己对应的版本。需要从网上直接下载就可以。 二、Linux内核初次编译 编译内核之前需要先在 ubuntu 上安装 lzop 库 sudo apt-get install lzop 在 Ubuntu 中 新 建 名 为 “ alientek_linux ” 的 文 件夹 &#xff0c; …

Reactor

文章目录 正确的理解发送double free问题解决 1.把我们的reactor进行拆分2.链接管理3.Reactor的理论 listensock只需要设置_recv_cb&#xff0c;而其他sock&#xff0c;读&#xff0c;写&#xff0c;异常 所以今天写nullptr其实就不太对&#xff0c;添加为空就没办法去响应事件…

【深度学习】 零基础介绍卷积神经网络(CNN)

CNN学习 零基础介绍写个CNN最简单的代码一. 概述二. 搭建CNN1. 输入层2. 卷积层3. 激活层4. 池化层5. 全连接层6. 网络搭建小结7. 损失函数8. 梯度下降9. 反向传播10. 模型评估与正则化11. 尝试搭建自己的第一个CNN 三. 经典CNN结构四. 猫狗识别项目实践1. Paddle实现版本&…

Leetcode打卡:找到稳定山的下标

执行结果&#xff1a;通过 题目&#xff1a; 3258 找到稳定山的下标 有 n 座山排成一列&#xff0c;每座山都有一个高度。给你一个整数数组 height &#xff0c;其中 height[i] 表示第 i 座山的高度&#xff0c;再给你一个整数 threshold 。 对于下标不为 0 的一座山&#xf…

leetcode刷题日记03——javascript

题目3&#xff1a; 回文数https://leetcode.cn/problems/palindrome-number/ 给你一个整数 x &#xff0c;如果 x 是一个回文整数&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 回文数是指正序&#xff08;从左向右&#xff09;和倒序&#xff08;从右向…