一举颠覆Transformer!最新Mamba结合方案刷新多个SOTA,单张GPU即可处理140k

还记得前段时间爆火的Jamba吗?

Jamba是世界上第一个生产级的Mamba大模型,它将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,取两种架构之长,达到模型质量和效率兼得的效果。

在吞吐量和效率等关键衡量指标上,Jamba处理128k长上下文时吞吐量是 Mixtral 8x7B的3倍;在成本上,Jamba一共支持256k上下文,单张A100 GPU即可处理140k。

这种十分炸裂的效果得益于其作者对Mamba和Transformer两种架构的创新性结合。受此启发,为了让Mamba也可以在其他方面达到两全其美的效果,研究者们开始探索Mamba与其他技术的结合,以期解决单一模型或方法难以克服的挑战。

目前已出现不少非常值得学习的研究成果,我从中挑选了12种Mamba结合方案,都是2024最新,可借鉴的方法和创新点我做了简单介绍,已开源的代码也都整理了,方便同学们学习。

论文原文以及开源代码需要的同学看文末

结合MoE

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

方法:本文提出了将SSM与Mamba相结合的研究方向,以便将SSM的潜力扩展到更大规模,并与现有的最先进的语言模型竞争。 MoE-Mamba通过Mamba与Mixture of Experts层的结合,实现了SSM和MoE的效率提升,并在2.35倍的训练步骤中达到了与Mamba相同的性能。

创新点:

  • 将Mixture of Experts与State Space Models相结合,开辟了一个新的研究方向。这条道路将使得更大规模的语言模型更有效地扩展。

  • 作者发现了两种表现相似但基于不同架构的模型之间奇怪的度量不一致情况。作者假设这一差异可能暗示了Mamba和其他SSM的潜在失效模式。

结合多模态

Fusion-Mamba for Cross-modality Object Detection

方法:本文提出了一种名为Fusion-Mamba的方法,旨在在隐藏状态空间中融合特征,这可能为跨模态特征融合开辟了一种新的范例。受到Mamba的启发,作者采用具有线性复杂度的Mamba构建了隐藏状态空间,并通过门控机制进一步改进,实现更深入和复杂的融合。

创新点:

  • Fusion-Mamba方法:作者引入了一种名为Fusion-Mamba的新方法,该方法首次利用Mamba进行多模态特征融合。在Fusion-Mamba中,作者设计了两个模块:State Space Channel Swapping (SSCS)模块用于浅层特征融合,Dual State Space Fusion (DSSF)模块用于在隐藏状态空间中进行深层特征融合。

  • 2D选择性扫描(SS2D)机制:作者引入了一种名为2D选择性扫描机制,用于解决二维视觉数据和一维语言序列之间的不兼容性。SS2D机制通过将图像补丁沿四个不同方向进行扩展,生成四个独立的序列,并利用这些序列建立全局感受野。

结合SAR

Simba:Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos

方法:论文提出了一种新的Skeleton Action Recognition (SAR)框架,将选择性状态空间模型Mamba与图数据相结合。通过在具有Shift-GCN骨干的新型编码器-解码器架构中利用Mamba,作者解决了SAR任务中有效建模长序列的挑战。与缺乏结构先验并且性能低于GCN方法的纯Transformer不同,该方法利用Mamba的力量来增强时间建模,同时保留空间信息。

创新点:

  • 首次将选择性状态空间模型Mamba集成到骨骼动作识别(SAR)和图数据领域中。通过在新颖的编码器-解码器架构中与Shift-GCN骨干网络结合使用Mamba,解决了SAR任务中有效建模长序列的挑战。

  • 模型Simba在三个基准SAR数据集(NTU RGB+D、NTU RGB+D120和Northwestern-UCLA)上取得了最先进的性能。

结合PM扩散

P-Mamba: Marrying Perona Malik Diffusion with Mamba for Efficient Pediatric Echocardiographic Left Ventricular Segmentation

方法:论文提出一种名为P-Mamba的模型,用于高效的儿科心脏超声检查左心室分割,该模型通过使用DWT-based PMD分支和Vision Mamba分支相结合的方法,在准确性和效率方面优于现有模型。

创新点:

  • P-Mamba模型:在儿科心脏超声图像中,引入了一种名为P-Mamba的创新架构,用于儿科心脏左心室的分割。该模型采用了Vision Mamba层来提高计算和内存效率,并能够捕捉全局依赖关系。同时,在基于DWT的PMD编码器分支中,引入了基于DWT的Perona-Malik扩散(PMD)块来抑制噪声,同时保留左心室的局部形态特征。

  • 数据集:该研究使用了从Lucile Packard Children's Hospital Stanford(2014-2021)收集的1,958名儿科患者的4,467个心脏超声图像数据集,其中包括7,643个灰度2D视频剪辑和17,600个标记图像。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“Mamba结合”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/564455.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

串联滞后校正及matlab实现

syms b_1 Z[]; P[0,-10,-5]; K1500; G_0zpk(Z,P,K); %G_0为校正前系统开环传递函数 [num,den]tfdata(G_0); %求解b,T [Gm,Pm,wg_0,wc_0]margin(G_0); %Pm为校正前的幅值裕度, gamma60; %确定校正后的相角裕度 Phi_c-6; %校正后的截止频率下Gc(s)的相角,一…

可视化看板有那么多应用场景,该如何快速搭建?可视化工具该如何选择?

在当今的信息化时代,数据已经成为了现代决策的核心。无论是企业战略规划、运营管理,还是个人生活决策,数据都扮演着至关重要的角色。随着数据分析技术和工具的不断进步,数据在决策中的作用将变得更加突出,对组织和个人…

IDEA中Docker相关操作的使用教程

一、引言 Docker作为当前最流行的容器化技术,极大地简化了应用的部署和管理。而IntelliJ IDEA作为一款强大的集成开发环境,也提供了对Docker的集成支持。本文将介绍如何在IDEA中配置和使用Docker,包括远程访问配置、服务连接、Dockerfile编写…

mysql基础4——增删改查表中的数据

添加数据 1)插入数据记录 insert into demo.test1 (barcode,goodsname,price) values (0001, book, 3); 2)插入查询结果 insert into table1 (字段名) select 字段名或值 from table2 where condition; //将表2中查询到的某条…

分享三个转换速度快、准确率高的视频转文字工具

想要直接将视频转换成文字,转换工具很重要!给大家分享三个转换速度快、准确率高的视频转文字工具,轻松完成转换。 1.网易见外 https://sight.youdao.com/ 网易家的智能转写翻译服务工作站,网页端就可以直接使用,支持视…

Cesium快速上手3-Billboard/Label/PointPrimitives图元使用讲解

Billboard&Cesium.BillboardCollection 面朝屏幕的图片,用于添加图标等集合 特点: 始终面朝屏幕,即使旋转也面朝屏幕注意创建的集群对象 Cesium.BillboardCollection 先看展示效果 function setBillboardProperties() {Sandcastle.declare(setBi…

【c++】vector模拟实现与深度剖析

🔥个人主页:Quitecoder 🔥专栏:c笔记仓 vector涉及到许多细节问题,比如双层深拷贝,迭代器失效等,本篇文章我们通过模拟实现来深度理解这块的内容 目录 1.基本框架2.构造和销毁3.元素访问4.获取…

STM32-DMA(软件出发、硬件触发)

DMA --为cpu减负 DMA简介 直接存储器存取(DMA)用来提供在外设和存储器之间或者存储器和存储器之间的高速数据传输。无须CPU干预,数据可以通过DMA快速地移动,这就节省了CPU的资源来做其他操作。两个DMA控制器有12个通道(DMA1有7个通道,DMA2…

广西桂林最大的模板厂——贵港市能强优品木业有限公司

贵港市能强优品木业有限公司是广西桂林地区最大的建筑模板厂家,拥有着25年的丰富生产经验。该公司以生产高品质的建筑覆膜板而闻名,其产品质量稳定,使用寿命长,深受广大客户的一致好评。 作为一家知名的建筑模板生产厂家&#xff…

Idea:通义千问插件

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 一、通义千问大模型 二、程序编写助手 三、Idea安装通义千问插件 总结 提示:以下是本篇文章正文内容,下面案例可供参考 一、通义千问大模型…

为什么感觉 C/C++ 不火了?

所谓火不火的,说白了就是用的人数的多少。哪个东西使用的人或者说围观的人多了,自然就被认为是火了。 编程语言层级从低级语言到高级语言熟悉的人数从来都是一个金字塔模型:在开始前我有一些资料,是我根据网友给的问题精心整理了…

MySQL常用命令和函数的讲解以及表之间的联结

Mysql的中一些语句的用法: 有表: CREATE TABLE book (id int(20) NOT NULL,book_name varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT 书名,press varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NUL…

数据结构之二叉搜索树底层实现洞若观火!

目录 题外话 正题 二叉搜索树 底层实现 二叉搜索树查找操作 查找操作思路 查找代码实现详解 二叉搜索树插入操作 插入操作思路 插入代码详解 二叉搜索树删除操作 删除操作思路 删除代码详解 小结 题外话 我的一切都是党给的,都是人民给的,都是家人们给的!! 十分感…

IDEA使用中, 设置平展软件包。使用IDEA遇到的问题:src里为什么创建包为什么不在包里面

使用IDEA遇到的问题:src里为什么创建包为什么不在包里面 如下图所示 : 点击齿轮设置 如何搞回来? 看下面的Flatten Packages(平展软件包)取消掉。

C++学习之C++11标准

目录 一,列表初始化 二,initializer_list 三,auto与decltype 1)auto 2)decltype 四,nullptr 五,范围for 六,新加容器 1)array 2)forward_list 3&a…

Zabbix 监控系统:监控Windows端

目录 前言 1、zabbix Windows客户端安装包下载 2、安装zabbix Windows客户端 3、 查看zabbix.Agent是否正在运行 4、Zabbix Web 界面配置 5、模拟故障(关闭Windows 10机器) 6、Zabbix Web 界面验证故障信息 前言 Zabbix是一种开源的网络监控系统…

小扎万字深度访谈:最强开源大模型Llama 3发布,Meta的AGI路径和开源哲学

今天Meta发布了史上最强开源大模型Llama 3,一口气发布了 8B 和 70B 2个预训练和指令微调模型,对比同级别的参数模型,性能上均达到了最佳。 此外,Meta还发布了基于Llama 3的AI助手Meta AI,可以在Facebook、Instagram、W…

优化器与优化策略的搭配

在深度学习中不同的optimizer 通常会选择不同 优化策略 lr_sheduler 与之搭配; 1. SGD 与 Adam 优化器 Adam 与经典 SGD 的不同之处在于, Adam 执行局部参数更新(即在参数级别进行更改),而不是全局执行此操作的 SGD…

非计算机专业考软考高项有必要吗?

我认为这非常重要。 看了你的介绍,如果你已经考取了会计证书,而且想要考取计算机专业的证书,或者你的职业规划涉及到计算机岗位,又或者你对计算机感兴趣,我建议你优先考虑软考,因为这个证书的含金量是有保…

冯喜运:4.22晚间欧市支撑阻力:现货黄金+美原油走势及操作建议

【黄金消息面解析 】:周一(4月20日)欧市早盘,现货黄金短线加速跳水,金价目前跌向2350美元/盎司关口,日内崩跌逾40美元。美国定于周五公布的个人消费支出(PCE)物价指数预计将显示,3月PCE物价指数同比增幅将从2月份的2.5…