Multimodal Dynamics:用于多模态融合背景下的分类

Multimodal Dynamics(MD)是可信赖的多模态分类算法,该算法动态评估不同样本的特征级和模态级信息量,从而可信赖地对多模态进行融合。

来自:Multimodal Dynamics: Dynamical Fusion for Trustworthy Multimodal Classification

问题
假设有一个包含 N N N个数据的 M M M模态带标签数据集 { { x n m } m = 1 M , y n } n = 1 N \left\{\left\{x_{n}^{m}\right\}_{m=1}^{M},y_{n}\right\}_{n=1}^{N} {{xnm}m=1M,yn}n=1N,多模态分类的目标是构建多模态数据到标签的映射 f f f

特征维度动态信息
对于高维特征向量 x m ∈ R d m x^{m}\in R^{d_{m}} xmRdm,通常存在与类别相关的特征子集,反映分类任务中不同特征的信息量,且特征的具体信息量在不同的样本中是动态变化的。因此,在多模态融合时应该:

  • 保留重要特征,去除冗余和噪声
  • 增强多模态融合的可解释性

MD中引入了动态特征信息量编码网络,在不同模态下保留信息特征,抑制非信息特征。特征信息量编码网络通过对特征进行加权以分离信息特征和非信息特征: w m = σ ( E m ( x m ) ) = [ w 1 m , . . . , w d m m ] w^{m}=\sigma(E^{m}(x^{m}))=[w_{1}^{m},...,w_{d_{m}}^{m}] wm=σ(Em(xm))=[w1m,...,wdmm]其中, w m ∈ R d m w^{m}\in R^{d_{m}} wmRdm是特征信息向量,对于高维数据,引入 l 1 l_{1} l1-norm 寻找特征的信息子集: L l 1 s = ∑ m = 1 M ∣ ∣ w m ∣ ∣ 1 L_{l_{1}}^{s}=\sum_{m=1}^{M}||w^{m}||_{1} Ll1s=m=1M∣∣wm1

模态维度动态信息
作者使用真实类概率来量化不同模态的分类置信度。在分类任务中,最终结果通常由最大类概率(MCP)来决定。这种方式虽然能给出预测分类,但会导致模型过度自信。不同于MCP使用最大概率同时表示预测和置信度,真实类概率(TCP)使用真实标签对应的softmax输出概率作为置信度。具体的,给定预测分布 p m ( y ∣ x m ) = [ p 1 m , . . . , p k m ] p^{m}(y|x^{m})=[p_{1}^{m},...,p_{k}^{m}] pm(yxm)=[p1m,...,pkm]和相应的标签 y y y T C P m TCP^{m} TCPm表示为: T C P m = y ⋅ p m ( y ∣ x m ) = ∑ k = 1 K y k p k m TCP^{m}=y\cdot p^{m}(y|x^{m})=\sum_{k=1}^{K}y_{k} p_{k}^{m} TCPm=ypm(yxm)=k=1Kykpkm当样本分类正确时,TCP等于MCP,当分类错误时,TCP更有可能是一个很低的值,为了在预测时给出TCP,每个模态 m m m训练一个置信度网络 g m : x m → T C P m g^{m}:x^{m}\rightarrow TCP^{m} gm:xmTCPm来逼近训练集上的 T C P m TCP^{m} TCPm L c o n f = ∑ m = 1 M ( g m ( x m ) − T C P m ) 2 + L c l s L^{conf}=\sum_{m=1}^{M}(g^{m}(x^{m})-TCP^{m})^{2}+L^{cls} Lconf=m=1M(gm(xm)TCPm)2+Lcls

多模态融合
MD的整体架构如下图,门控用于保留信息特征: x ~ m = x m ⊙ w m \widetilde{x}^{m}=x^{m}\odot w^{m} x m=xmwm ⊙ \odot 表示元素相乘,预测置信度用于多模态融合: h = [ g 1 ( h 1 ) , . . . , g M ( h M ) ] h=[g^{1}(h^{1}),...,g^{M}(h^{M})] h=[g1(h1),...,gM(hM)]其中 h m = f 1 m ( x ~ m ) h^{m}=f^{m}_{1}(\widetilde{x}^{m}) hm=f1m(x m) [ , ] [,] [,]是拼接操作, f 1 m f_{1}^{m} f1m是去掉最后一个全连接层的分类器。额外的分类器 f : h → y f:h\rightarrow y f:hy通过交叉熵损失训练。

fig1
总结
MD特征维度是用可学习的网络输出特征权重,模态维度则通过每个模态设置一个置信度网络,输出分类置信度。注意这是处理联合数据的,因为每个模态下的样本都是匹配的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/703588.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2、python 基础学习总结

文章目录 一、python 标识符和变量命名规则1、python 标识符2 python 变量和变量命名规则 二、数据类型2.1 Numbers(数字类型)2.2 String(字符串类型)2.2.1 单引号、双引号、三引号字符串之间的区别2.2.2 转义字符 在这里插入图片…

PDU模块中浪涌保护模块与空开模块的应用

由于PDU具体应用的特殊性,其在规划设计时具有应用场景的针对性,同时PDU的高度定制化的特点,是其他电气联接与保护产品所不具备的。 PDU基础的输出输入功能外,其电路的控制与电压保护器同时也极为重要。空气开关和浪涌保护器相关功…

自动驾驶场景下TCP协议参数优化调整案例分享

RTT 往返时间,从tcp协议栈决定发包,到收到回包的时间。 包含本地驱动,网卡硬件,网线,交换机,收包方处理的耗时。需注意如果开了delayed ack,协议栈未做特殊处理(默认没做&#xff…

GEO ISP图像调试-PFC(蓝紫边校正)

目录 1、简单介绍 2、调试策略 3、输出结果 1、简单介绍 GEO中中调整图像蓝紫边可分为两步,第一步:调整蓝紫边检测区域,第二步:设置去蓝紫边强度。 2、调试策略 图1 该图像蓝紫边较严重 主要原因是由于蓝紫边检测不准导致的&…

汽车行驶中是怎么保障轴瓦安全的?

汽车轴瓦是一种用于减少摩擦和支撑转动部件的关键零部件,通常用于发动机的曲轴、凸轮轴等转动部件上。主要作用是减少转动部件之间的摩擦,支撑和保护曲轴、凸轮轴等旋转部件,确保它们在高速旋转时的稳定性和耐用性。 在汽车轴瓦加工过程中&am…

Jemeter做性能测试

目录 1. 测试计划 2. 线程组 3. HTTP请求 4. 查看结果树 5. 聚合报告 【要求】 用JMeter取样器,实现对云边AI (qinzhi.xyz)的访问 【步骤】 1. 测试计划 2. 线程组 右击测试计划——添加——线程(用户)——线程组 3. HTTP请求 右击线程组——添加——取样…

基于C#开发web网页管理系统模板流程-参数传递

点击返回目录-> 基于C#开发web网页管理系统模板流程-总集篇-CSDN博客 前言 当用户长时间未在管理系统界面进行操作,或者用户密码进行了更改,显然用户必须重新登录以验证身份,如何实现这个功能呢? HTTP Cookie(也叫 …

meilisearch,老版本的文档

Elasticsearch 做为老牌搜索引擎,功能基本满足,但复杂,重量级,适合大数据量。 MeiliSearch 设计目标针对数据在 500GB 左右的搜索需求,极快,单文件,超轻量。 所以,对于中小型项目来说…

物业抄表与收费系统的现代化解决方案

1.系统简述 物业抄表与收费系统是当代物业管理方法不可或缺的一部分,它通过自动化的形式,高效地管理方法电力能源使用数据,提升收费标准高效率,降低人为失误,同时提供数据统计分析适用。该系统不但优化了物业企业的日…

单目标应用:基于人工原生动物优化器APO的微电网优化(MATLAB代码)

一、微电网模型介绍 微电网多目标优化调度模型简介_vmgpqv-CSDN博客 参考文献: [1]李兴莘,张靖,何宇,等.基于改进粒子群算法的微电网多目标优化调度[J].电力科学与工程, 2021, 37(3):7 二、人工原生动物优化算法求解微电网 2.1算法简介 人工原生动物优化器&am…

CorelDRAW2024官方最新中文破解版Crack安装包网盘下载安装方法

在设计的世界里,软件工具的更新与升级总是令人瞩目的焦点。近期,CorelDRAW 2024中文版及其终身永久版的发布,以及中文破解版Crack的出现,再次掀起了设计圈的热潮。对于追求专业精确的设计师而言,了解这些版本的下载安装…

一文读懂IP地址隔离

一、IP地址隔离的概念和原理 当我们谈论 IP 地址隔离时,我们实际上是在讨论一种网络安全策略,旨在通过技术手段将网络划分为不同的区域或子网,每个区域或子网都有自己独特的 IP 地址范围。这种划分使网络管理员可以更精细地控制哪些设备或用…

[12] 使用 CUDA 进行图像处理

使用 CUDA 进行图像处理 当下生活在高清摄像头的时代,这种摄像头能捕获高达1920*1920像素的高解析度画幅。想要实施的处理这么多的数据,往往需要几个TFlops地浮点处理性能,这些要求CPU也无法满足通过在代码中使用CUDA,可以利用GP…

简单项目——前后端分离实现博客系统

文章目录 一、项目实现的准备工作二、数据库的设计以及构建三、封装数据库连接、创建实体类四、封装数据库的增删查改操作五、实现博客系统核心操作1.获取博客列表页2.获取博客详情页3. 实现博客登录页4. 实现所有页面检查并强制登录5.退出登录状态6. 实现博客发布7. 实现删除文…

联想电脑 调节屏幕亮度不起使用,按F5,F6,屏幕上的hotkeys进度条是在改变,但是屏幕没有一些作用的处理方法

1、查看驱动是否正常 Win键X ,设备管理器 发现似乎挺正常的。 查看原厂驱动:联想电脑管家 这样看来,驱动是没有问题了。 2、看看设置电池模式 其实还是这个电池模式的问题导致。 如果处于养护模式的话,充电只在75%~80%&#x…

重生之 SpringBoot3 入门保姆级学习(18、事件驱动开发解耦合)

重生之 SpringBoot3 入门保姆级学习(18、事件驱动开发解耦合) 5、SpringBoot3 核心5.1 原始开发5.2 事件驱动开发 5、SpringBoot3 核心 5.1 原始开发 LoginController package com.zhong.bootcenter.controller;import com.zhong.bootcenter.service.A…

嵌入式实训day2

1、 counteval(input("请输入两位数")) jincount//16 liangcount%16 print(jin,"斤",liang,"两") 2、 numeval(input("请输入一个三位数:")) res0 resnum%10 resnum%100//10 resres//100 print("res",res) 3、 4、字符串比大…

一个Anki填空题模板

Anki自带的填空题模板无法输入答案,显示也极为简陋。通过对Anki自带的填空题模板进行改造,做出了下面的填空题模板。这个模板有两个字段——题面和章节。前者保存题目及正确答案,后者保存与本题相关的知识在教材中的章节。题面可以用类似{{c1…

C++发送邮件的性能如何优化?有哪些方法?

C发送邮件怎么配置SMTP服务器?如何使用C库发信? 在现代应用程序中,电子邮件发送是一个常见的功能。尤其对于需要发送大量邮件的企业级应用,优化邮件发送性能变得尤为重要。AokSend将探讨在使用C发送邮件时,如何通过各…

为什么代理IP都没有100%可用性?

在当今高度互联的网络环境中,代理IP已成为许多网络活动的重要支撑工具,从数据收集到业务推广,无所不包。然而,代理IP在很多场景中发挥着重要作用,却很难实现100%的可用性。 这种情况并非偶然,而是受到多重复…