谷歌创新框架:从非结构化数据,实现多模态学习

看、听、说的多模态已成为主流大模型的重要功能之一。但在数据爆炸时代,大模型学习文本类的结构化数据相对还好一些,但要去学习视频、音频、图片等非结构化数据非常困难。

目前,从结构化和非结构化数据实现多模态学习,会随着模态数量、输入大小和数据异构性的增加,深度神经网络会变过拟合和泛化效果不佳。

尤其是当在规模有限的数据集上训练时,这一状况就越发明显,例如,经常表现出非平稳行为的时间序列数据。因此,谷歌提出了创新框架LANISTR来解决这些难题。

论文地址:https://arxiv.org/pdf/2305.16556

图片

LANISTR是一个基于注意力机制的框架,其核心思想是在单模态和多模态层面上应用基于掩码的训练。

还特别引入了一种新的基于相似度的多模态掩码损失,使其能够从存在缺失模态的大型多模态数据中学习跨模态之间的关系。

多模态融合编码器

现实数据经常以复合形式存在,单一模态的数据往往不足以捕捉事件的全貌。例如,在医疗诊断中,临床报告和MRI扫描图像才能展现患者状况的全面视图;而在电子商务中,商品描述与销售历史(时间序列)相结合才能更好地预测市场需求。

因此,一个好用的多模态大模型,必须具备将这些分散信息源综合的能力。为了实现这一目标,LANISTR采用了基于Transformer架构的交叉注意力机制。

图片

多模态融合编码器可将来自各模态的嵌入向量首先被串联起来,然后通过一系列的Transformer层进行处理

在这些层中,交叉注意力机制发挥了重要作用,允许模型在不同的模态表示之间自由“询问”和“回答”,使每个模态的特征都能关注其他模态的特征,并根据它们的相关性和重要性进行加权整合。

这一流程与人脑思考有些类似,可根据上下文和情境在不同感官信号间切换注意力,从而实现信息的高效整合。

4种编码器介绍

LANISTR中的多模态融合编码器一共由文本、图像、表格和时间序列4种编码器组成,每种模态都有其独特的表达方式和信息结构。这种机制不仅增强了对单个模态特征的理解,还促进了模态间的交互学习,从而对整个场景有了更加全面的认识。

图片

文本编码器:基于Transformer架构主要处理文本数据。通过掩码语言方法进行预训练,随机掩盖文本中的部分词汇,让模型学习预测这些被掩盖词的能力。这种机制促使模型理解词语间的依赖关系和语境含义,从而提取出丰富的语言特征。

图像编码器:采用Vision Transformer架构用于处理视觉数据。可将图像分割成多个小块,并将这些块视为序列输入到Transformer中,通过自注意力机制学习图像的高层次特征,还会使用掩码图像建模方法,通过重建被掩码的像素或特征来训练,以提取图像的视觉特征。

图片

表格编码器:使用了定制的神经网络结构,针对分类特征的嵌入层来编码每一列数据的特征。考虑到表格数据的稀疏性和多样性,了集成特征选择或降维技术,以聚焦于最有信息量的特征。

时间序列编码器:由于大模型需要捕捉随时间变化的动态模式,时间序列编码器使用了循环神经网络方法,长短时记忆网络和门控循环单元。通过对序列进行建模提取出时间序列的模式和趋势,为后续的多模态融合准备数据。

研究人员在两个数据集上测试了LANISTR的性能,在MIMIC-IV数据集上,当仅使用0.1%的有标签数据进行微调时,模型的AUROC相比最先进的方法提高了6.6%。

在亚马逊产品评论数据集中,仅使用0.01%的有标签数据,模型的准确率提升了14%。值得一提的是,这些改进是在高达35.7%和99.8%的样本存在模态缺失的情况下完成的,这更加证明了LANISTR的多模态学习能力。

本文素材来源LANISTR论文,如有侵权请联系删除

END

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/675343.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

openeuler欧拉系统连不上网,ping百度报错,ping: www.baidu.com: Name or service not known

一、现象 使用华为 openeuler 系统连不上网,ping 百度报如下错误 ↓ ping: www.baidu.com: Name or service not known二、原因 没有配置dns服务器 三、解决办法 进入网络配置文件存放文件夹 cd /etc/sysconfig/network-scripts/查看对应的网口文件 ls ps: 不同系…

python 贪心算法(Greedy Algo)

贪婪是一种算法范式,它逐步构建解决方案,始终选择提供最明显和直接收益的下一个部分。贪婪算法用于解决优化问题。 如果问题具有以下属性,则可以使用贪心法解决优化问题: 每一步,我们都可以做出当前看来最好的选择&…

教务管理系统带万字文档基于springboot+vue的校务管理系统java项目

文章目录 教务管理系统一、项目演示二、项目介绍三、万字项目文档四、部分功能截图五、部分代码展示六、底部获取项目源码和万字论文参考(9.9¥带走) 教务管理系统 一、项目演示 校务管理系统 二、项目介绍 基于springbootvue的前后端分离教…

强大的机器学习建模扩展包:mlxtend

公众号:尤而小屋编辑:Peter作者:Peter 大家好,我是Peter~ 今天给大家介绍一个强大的机器学习建模扩展包:mlxtend。 mlxtend(machine learning extensions,机器学习扩展)是一个用于日常数据分析、机器学习…

程序员应该有什么职业素养?

程序员的六大职业素养:构建成功职业生涯的基石 在不断变化的技术世界中,程序员不单要保持技术的锋利,也需要培养相应的职业素养,这些素养在很大程度上决定了一个程序员的职业生涯能否走得长远。以下是我认为最为重要的六大职业素…

2024上海国际金属去毛刺表面精加工技术展览会

2024上海国际金属去毛刺表面精加工技术展览会 2024 Shanghai International Metal Deburring Surface Finishing Technology Exhibition 时间:2024年12月18日--20日 地点:上海新国际博览中心 详询主办方陆先生 I38(前三位) …

gorm/gin框架实战

gorm/gin框架实战 项目简介 学习源视频:【最新Go Web开发教程】基于gin框架和gorm的web开发实战 (七米出品)_哔哩哔哩_bilibili 本博客为我的学习笔记。 项目目标:实现一个备忘录工具(当然不支持alert),仅仅是可以记录待办事项。 实现了…

Linux基础1-基本指令3

上篇文章我们说到了文件,pwd,touch,mkdir等知识。 Linux基础1-基本指令2(你真的了解文件吗?)-CSDN博客 本文继续梳理其他基础命令 1.本章重点 1.删除一个空目录命令rmdir 2.删除一个文件指令rm(重要!) 3.man命令&am…

Gradle下载慢的问题解决

把gradle地址前面的部分改一下就行,下载就快多了 改成这个地址: https://mirrors.aliyun.com/macports/distfiles/gradle/ 这个是gradle的阿里云镜像下载地址,在国内下载起来很快 如何改地址: 找到路径 项目/app/gradle/wrappe…

养老产业能否成为国家经济的新支柱?

养老产业,随着人口老龄化的加剧,逐渐成为国家经济的新支柱。在中国,老年人口的快速增长已经引起了社会的广泛关注,这也带动了对养老服务和健康医疗需求的持续增加。 政府也在积极应对这一挑战,出台了一系列政策来支持…

理解与应用排序算法(快速排序C实现)

目录 一、排序的定义 二、内排序方法 三、插入排序 3.1 直接插入排序 3.1 折半插入排序 3.1 链表插入排序 四、交换排序 五、起泡排序 六、快速排序 一、排序的定义 稳定排序和非稳定排序 设文件f(R1......Ri......Rj......Rn)中记录Ri、Rj(i≠j&#xff0…

TMS320F280049 ECAP模块--应用(2)

例1-上升沿触发 如下图所示,evt1-4设置为上升沿触发,在每个上升沿ctr值依次加载到cap1-4. 例2-上升下降沿触发 每个边沿都可选为事件,每次事件到来,依次把ctr加载到cap1-4。 例3-差异模式下上升沿触发 差异模式下每次事件到来时…

varchar 字段扩展问题

背景 近期接到一个产品需求,由于上游业务字段扩大了字段,下游的字段也得跟着调整扩大,这就涉及几十张大表,十几亿行数据的变更。 如果按照传统方式 onlie-ddl 借用第三方工具也得三四天分批跑,看了看MySQL官网&#…

ctfshow-web入门-爆破(web25)及php_mt_seed工具的安装与使用

爆个🔨,不爆了 hexdec() 函数用于将十六进制字符串转换为十进制数; 注意: 我最开始做这道题时看错了,误以为随机数的种子直接来自于 flag 的前八位,以为就是 ctfshow{ 这八个字符然后 md5 加密再截取&a…

使用jquery.mousewheel-3.0.6.pack.js时报错

基于1.12.4版本的jquery.min.js,在使用jquery.mousewheel-3.0.6.pack.js时报错了: 可以如下解决: addEventListener事件里要加上{ passive: false },这样就可以在使用鼠标滚轮放大缩小图片时,就不会报上述的错误了。 …

VsQt单元测试目录的管理方式

正常项目的文件管理方式 正常项目的目录,是由文件系统中实际的文件夹进行分类管理的。 但是如果单元测试用实际文件夹管理的话,会出现问题,就是被测类太多了,用文件系统管理的话,不太方面查看,如下图所示。…

7EPhone云手机各功能详解

上篇文章详细介绍了7EPhone云手机的注册和购买(没看到的同学可以自主去翻看一下哈~),这篇文章主要给大家讲解7EPhone作为专业海外社媒营销工具,界面上显示什么信息,云机到底有什么功能,这些功能具体怎么来使…

招聘兼职发布客服的骗局大揭秘

在现今的互联网社会中,线上兼职成为许多人追求额外收入或灵活就业的方式。然而,这其中也隐藏着不少骗局,在各大招聘网站或者招聘软件上的今日头条兼职客服招聘就是其中之一。本文将详细揭露这种骗局的运作方式,以帮助大家识别和防…

对比WPF和Avalonia的边框渲染差异

众所周知&#xff0c;诸如Border、Rectangle等元素&#xff0c;是具有边框的。但在WPF和Avalonia中&#xff0c;边框的渲染机制有所不同。 如下代码&#xff0c;Border的边框和背景色均为黑色&#xff0c;并且将透明度设为0.5&#xff1a; <Border Width"100" H…

知了汇智携手数字经济商会,共促物联网鸿蒙产教融合新篇章

5月31日&#xff0c;由成都市数字经济商会主办&#xff0c;华为技术有限公司协办&#xff0c;成都知了汇智科技有限公司及成都市数字经济商会人才专委会共同承办的“产教融合物联网鸿蒙人才交流”大会在成都天府软件园产教融合基地隆重举办。 会议旨在加速四川省鸿蒙技术产业的…