多模态数据融合简介#翻译

翻译自—— 感谢外国友人分享,鄙人在此翻译分享给大家INTRODUCTION TO DATA FUSION. multi-modality | by Haylat T | Haileleol Tibebu | Medium

多模态梳理_多模态图像和多模态方法的区别-CSDN博客 #这个网u也写得不错!

多模态

神经网络是最著名的机器学习算法之一,由于其高精度训练的能力,近年来一直发挥着重要作用。神经网络是一种受人脑启发的深度学习方法。深度学习已成为学术界和工业界的一个突出研究兴趣,主要是因为与其他机器学习架构相比,深度学习具有很高的性能。

单个域数据集中进行深度学习已经成功。目前的研究涉及多模态输入数据。Lahal等[3]将多模态定义为由多个传感器观测的系统使用多模态的目的是从单个传感器中提取和混合重要信息,并使用这种混合功能来解决给定问题。因此,预期产出将比个别模式具有更丰富的代表性和性能。多模态数据分析是医学、商业、无人驾驶技术和游戏等多个研究领域的实用解决方案。常见的遥感设备,如相机、激光雷达、雷达和超声波经常被融合[4]。

多模态技术

有三种技术用于多模态数据融合[5] [6]。

1. 早期融合或数据级融合

数据级融合是在进行分析之前融合多个数据的传统方法(图 3)。此方法称为输入电平融合。研究[6]提出了两种早期融合技术的可能方法。第一种方法是通过消除两个传感器之间的相关性来组合数据。第二种方法是在较低维的公共空间处融合数据。有许多统计解决方案可用于完成一种或两种方法,包括主成分分析(PCA)、典型相关分析和独立成分分析。

早期融合适用于从传感器获得的原始数据或预处理数据。在融合之前,应从数据中提取数据特征,否则该过程将具有挑战性,尤其是当数据源在模态之间具有不同的采样率时。当一个数据源是离散的,而其他数据源是连续的时,数据源的同步也具有挑战性。因此,将数据源转换为单个特征向量是早期数据融合中的一个重大挑战。

图 1.早期融合或数据级融合

早期数据融合背后的假设是多个数据源之间的条件独立性。根据Sebe等[7]的说法,这种假设并不总是正确的,因为多种模态可以具有高度相关的特征,例如视频和深度线索。另一篇论文[8]也指出,不同的模态可以包含更高层次上相互关联的信息。因此,可以假设每种模式的输出都是相互独立处理的。Poria等[9]实现了早期数据融合,其中涉及多模态流中特征的串联,这可以被认为是早期数据融合的最简单形式。

使用早期数据融合有两个缺点。这种方法的主要缺点之一是,在融合之前,会从模态中扣除大量数据以形成共同点。一旦数据具有通用矩阵,就会使用机器学习算法对其进行分析。这种方法的另一个缺点是同步不同模态的时间戳。克服这一缺点的常用方法是以通用采样率收集数据或信号。Martinez等[10]提出了其他缓解解决方案,包括训练、池化和卷积融合。这些提出的方法是通过将连续离散事件与连续数据融合来实现的。

2. 晚期融合或决策级融合

晚期融合独立使用数据源,然后在决策阶段进行融合(图 4)。晚期数据融合的灵感来自集成分类器的流行[11]。这种技术比早期的融合方法要简单得多,特别是当数据源在采样率、数据维度和测量单位方面彼此之间有很大差异时。后期融合通常提供更好的性能,因为来自多个模型的错误是独立处理的,因此错误是不相关的。然而,Ramachandram等[12]认为,没有确凿的证据表明晚期融合比早期融合表现更好。然而,许多研究人员使用晚期或决策级融合来分析多模态数据问题[13][14][15]。

存在不同的规则来确定决定如何最终组合每个独立训练的模型的最佳方法。贝叶斯规则、最大融合和平均融合是一些常见的晚期融合规则。

当输入数据流在维数和采样率方面存在显著差异时,使用后期融合是一种更简单、更灵活的方法。

图2.晚期融合或决策融合

3.中间融合

中间融合的架构是建立在流行的深度神经网络的基础上的。这种方法是最灵活的方法,允许在模型训练的不同阶段进行数据融合。基于神经网络的多模态数据融合大大提高了性能。

中间融合通过多个图层将输入数据更改为更高级别的表示(特征)。每个单独的层都运行线性和非线性函数,这些函数转换输入数据的比例、倾斜和摆动,并给出原始输入数据的新表示。深度学习多模态上下文中的中间融合是将不同的模态表示融合到单个隐藏层中,以便模型学习每个模态的联合表示。可以从不同类型的层中学习特征,包括:2D 卷积、3D 卷积和全连接。发生不同模态特征融合的层称为融合层或共享表示层。

不同的模态可以同时融合到一个共享的表示层中,也可以一次使用一种或多种模态逐渐执行(图5)。尽管可以在单个层中融合多个模态特征或权重,但这可能会导致模型过拟合,或者网络可能无法学习每个模态之间的关系。

提高深度多模态融合性能的一种方法是降低数据的维数。Li等[16]使用主成分分析(PCA),Ding等[17]使用自编码器在构建融合层或共享表示层后降低网络的维数。与早期融合和晚期融合相反,中间融合提供了融合不同深度特征的灵活性。

图3.中间融合

Karpathy等[18]的研究论文使用了一种“慢融合”网络,其中训练视频流特征在多个融合层之间逐渐融合。这种方法在大规模视频流分类问题中表现更好。其他类似的研究[19]展示了一种渐进融合方法,该方法首先融合了高度相关的输入模态,然后逐渐融合了不太相关的输入模态(即视觉输入模态,然后是运动输入模态,然后是音频输入模态)。本文提出了一种最先进的交际手势识别性能。

Reference

[3] D. Lahat, T. Adali, and C. Jutten, “Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects,” Proceedings of the IEEE. 2015.

[4] Y. Lecun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, 2015.

[5] D. Lahat et al., “Multimodal Data Fusion : An Overview of Methods , Challenges and Prospects To cite this version : HAL Id : hal-01179853 Multimodal Data Fusion : An Overview of Methods , Challenges and Prospects,” arXiv, vol. 103, no. 9, pp. 1–26, 2015.

[6] B. Khaleghi, A. Khamis, F. O. Karray, and S. N. Razavi, “Multisensor data fusion: A review of the state-of-the-art,” Inf. Fusion, 2013.

[7] Machine Learning in Computer Vision. 2005.

[8] A. Owens, J. Wu, J. H. McDermott, W. T. Freeman, and A. Torralba, “Ambient sound provides supervision for visual learning,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016.

[9] S. Poria, E. Cambria, and A. Gelbukh, “Deep Convolutional Neural Network Textual Features and Multiple Kernel Learning for Utterance-level Multimodal Sentiment Analysis,” no. September, pp. 2539–2544, 2015.

[10] H. P. Martínez and G. N. Yannakakis, “Deep Multimodal Fusion,” 2014.

[11] L. I. Kuncheva, “Combining Pattern Classifiers: Methods and Algorithms,” Wiley, 2004.

[12] R. Dhanesh and T. Graham W, “Deep Multimodal Learning: A Survey on Recent Advances and Trends,” IEEE Signal Process. Mag., vol. 34, no. 6, pp. 96–108, 2017.

[13] Z. Simonyan, Karen and Andrew, “Two-Stream convolutional networks for Action Recognition,” in NIPS’14 Proceedings of the 27th International Conference on Neural Information Processing Systems — Volume 1, 2004.

[14] D. Wu et al., “Deep Dynamic Neural Networks for Multimodal Gesture Segmentation and Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., 2016.

[15] S. E. Kanou et al., “Combining modality specific deep neural networks for emotion recognition in video,” 2013.

[16] D. Yi, Z. Lei, and S. Z. Li, “Shared representation learning for heterogenous face recognition,” in 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition, FG 2015, 2015.

[17] C. Ding and D. Tao, “Robust Face Recognition via Multimodal Deep Face Representation,” IEEE Trans. Multimed., 2015.

[18] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and F. F. Li, “Large-scale video classification with convolutional neural networks,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2014.

[19] N. Neverova, C. Wolf, G. Taylor, and F. Nebout, “ModDrop: Adaptive multi-modal gesture recognition,” IEEE Trans. Pattern Anal. Mach. Intell., 2016.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/479651.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

申元智能邀您参观2024长三角快递物流供应链与技术装备展览会

2024年7月8-10日 | 杭州国际博览中心 展会介绍 2024长三角快递物流供应链与技术装备展览会(杭州),于2024年7月8-10日在杭州国际博览中心召开,本届展会致力于全面展示快递物流上下游领域的创新解决方案,涵盖快递物流供…

接雨水-热题 100?-Lua 中文代码解题第4题

接雨水-热题 100?-Lua 中文代码解题第4题 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释…

中型企业网络路由器配置(ensp)实验

vlan、vlan间路由、ospf协议等来实现三层交换机和单臂路由之间的通信 拓扑图: 1. 配置三层交换机vlan和vlan间路由 SW1 #进入视图 sys sysn sw1 undo info-center enable#配置vlan vlan batch 10 20 30 40 50 60#配置access口 int g0/0/1 port link-type access …

第十二届蓝桥杯省赛CC++ 研究生组

十二届省赛题 第十二届蓝桥杯省赛C&C 研究生组-卡片 第十二届蓝桥杯省赛C&C 研究生组-直线 第十二届蓝桥杯省赛C&C 研究生组-货物摆放 第十二届蓝桥杯省赛C&C 研究生组-路径 第十二届蓝桥杯省赛C&C 研究生组-时间显示 第十二届蓝桥杯省赛C&C 研究生组…

数字资产管理系统、企业数字资产管理软件

数字资产管理系统(DAMS)是一系列软件,它提供了一个开放平台,支持对多媒体数据的采集、创建、管理、存储、归档、检索、传输和显示。这些多媒体数据包括图像、视频、声音、文本和电影剪辑等。这些基础软件不仅是内容创作&#xff0…

普洛斯怀来数据中心获Uptime MO认证,以高品质服务持续提升客户体验

近日,普洛斯怀来数据中心顺利通过Uptime M&O(运维与管理)认证,获得Uptime Institute颁发的认证证书。普洛斯数据中心致力于为客户提供高品质、高可靠的运维服务,此项认证,标志着普洛斯数据中心运营及管…

基于springboot的班级综合测评管理系统的设计与实现

目录 背景 技术简介 系统简介 界面预览 背景 随着电子技术的广泛渗透和迅猛发展,网络化的管理平台得到了大规模的应用。众多的公共机构和商业组织都在积极推进管理流程的电子化转型,班级的综合评价管理系统亦是如此,从传统的手工操作转变…

移动硬盘故障解析:解决无法访问且位置不可用问题

在我们日常的工作和生活中,移动硬盘已成为存储和传输数据的重要工具。然而,有时我们会遇到移动硬盘无法访问且位置不可用的情况,这无疑给数据的存储和访问带来了极大的困扰。本文将深入探讨这一问题,分析其原因,并给出…

C#事件实例详解

一、什么是事件? 在C#中,事件(event)是一种特殊的类成员,它允许类或对象通知其他类或对象发生了某些事情。 从语法上看,事件的声明类似于字段,但它们在功能和行为上有一些重要的区别。 从技术角度来说,事件实际上是一个封装了事件订阅和取消订阅功能的委托字段。…

JS08-DOM节点完整版

DOM节点 查找节点 父节点 <div class="father"><div class="son">儿子</div></div><script>let son = document.querySelector(.son)console.log(son.parentNode);son.parentNode.style.display = none</script>通过…

基于Java的厦门旅游电子商务预订系统(Vue.js+SpringBoot)

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 景点类型模块2.2 景点档案模块2.3 酒店管理模块2.4 美食管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 学生表3.2.2 学生表3.2.3 学生表3.2.4 学生表 四、系统展示五、核心代码5.1 新增景点类型5.2 查询推荐的…

【GIT】最好用的git可视化教程网站推荐

最好用可视化学习git 网站:https://learngitbranching.js.org/?demo&localezh_CN 玩遍所有关卡&#xff0c;花半天时间便能掌握git &#x1f603; 本地仓库 基础命令介绍 git commit 提交 git branch <分支名> 创建分支 git checkout <分支名> 切换分支 git…

2024年阿里云2核4G服务器价格30元、165元和199元1年

阿里云2核4G服务器租用优惠价格&#xff0c;轻量2核4G服务器165元一年、u1服务器2核4G5M带宽199元一年、云服务器e实例30元3个月&#xff0c;活动链接 aliyunfuwuqi.com/go/aliyun 活动链接如下图&#xff1a; 阿里云2核4G服务器优惠价格 轻量应用服务器2核2G4M带宽、60GB高效…

GPU算力池管理工具Determined AI部署与使用教程(2024.03)

1. 概念 1.1 什么是Determined&#xff1f; Determined AI 是一个全功能的深度学习平台&#xff0c;兼容 PyTorch 和 TensorFlow。它主要负责以下几个方面&#xff1a; 分布式训练&#xff1a;Determined AI 可以将训练工作负载分布在多个 GPU&#xff08;可能在多台计算机上…

阿里云2核4G云服务器ECS和轻量应用服务器价格表

阿里云2核4G服务器租用优惠价格&#xff0c;轻量2核4G服务器165元一年、u1服务器2核4G5M带宽199元一年、云服务器e实例30元3个月&#xff0c;活动链接 aliyunfuwuqi.com/go/aliyun 活动链接如下图&#xff1a; 阿里云2核4G服务器优惠价格 轻量应用服务器2核2G4M带宽、60GB高效…

UKP3d的协同设计相关问题

用户在用UKP3d多人协同设计&#xff0c;反映以前保存的内容为什么没有呢&#xff1f; 经查&#xff0c;协同设计的某一用户并没有打开协同去用。如A,B两人协同设计&#xff0c;B并不是用“打开—协同项目”&#xff0c;而是用“打开—项目”&#xff0c;当B保存项目的时候&…

015 Linux_生产消费模型

​&#x1f308;个人主页&#xff1a;Fan_558 &#x1f525; 系列专栏&#xff1a;Linux &#x1f339;关注我&#x1f4aa;&#x1f3fb;带你学更多操作系统知识 文章目录 前言一、生产消费模型&#xff08;1&#xff09;概念引入&#xff08;2&#xff09;生产消费模型的优点…

OJ_快速幂

分解幂计算再加和 递推数列 核心&#xff1a;求方阵的幂 #include <iostream>using namespace std;//矩阵乘法 void MatrixMultiply(int m1[2][2],int m2[2][2],int res[2][2]){res[0][0] (m1[0][0] * m2[0][0] %10000) (m1[0][1] * m2[1][0] %10000);res[0][0] % 10…

记录一个vue,ele-ui实现列表指定行数批量选中解决方法

这个问题卡了一天&#xff0c;试了好多方法总算试出来了&#xff1a; <template><div><!-- 功能区卡片 --><el-card class"mb-4"><el-row class"mb-1"><el-col :span"12">请输入想勾选的专利起止条数&am…

python基础 | 核心库:NumPy 矩阵计算

NumPy不是标准库&#xff0c;不是自带的&#xff0c;需要自己安装。要通过终端来安装&#xff0c;vs里面的不行 官方文档 1、创建 1.1 指定创建 import numpy as npa np.array([1,2,3]) # 创建数组(以列表方式)# 注&#xff1a;asarray 和array类似&#xff0c;只是array会…