吃瓜Llama3-V之余,看多模态大模型架构演变!

今天最大的瓜莫过于:斯坦福 Llama3-V PK 清华 MiniCPM-Llama3-V-2.5,详细证据:

https://github.com/OpenBMB/MiniCPM-V/issues/196

吃瓜之余,来看一下多模态大模型架构演变!

一篇优秀的论文综述了多模态AI架构——包含了一个全面的分类法和对任意到任意模态模型发展的分析。

📌 综合分类法:首次明确识别并分类四种广泛的多模态架构类型(A型、B型、C型、D型),有助于简化对模型架构的理解和选择。

📌 比较分析:对每种架构类型的优势和劣势进行了详细审查,考虑了训练数据、计算需求、可扩展性和模态整合。

📌 任意到任意模态模型:突出了构建任意到任意模态模型所涉及的主要架构类型,有助于模型的选择和发展。

综合分类法

按四种提出的架构类型分组的多模态模型发展时间线

在这里插入图片描述

多模态模型架构的分类。四种不同类型的多模态架构及其子类型被概述。各种模型被系统地分类到类型和子类型中。深度融合:类型A和类型B在模型的内部层融合多模态输入。早期融合:类型C和类型D在输入阶段促进融合。类型A使用标准的交叉注意力机制,而类型B则利用定制设计的交叉注意力或专门的层。类型C是一种非标记化的多模态模型架构,而类型D则采用输入标记化(离散标记)。SCDF:基于标准交叉注意力的深度融合。CLDF:基于定制层的深度融合。NTEF:非标记化的早期融合。TEF:标记化的早期融合。

图片

比较分析

  • Type-A (SCDF:Standard Cross-Attention based Deep Fusion) - 标准交叉注意力深度融合:使用标准的交叉注意力层在模型的内部层进行多模态输入的深度融合。这种类型可能在自注意力层之前或之后添加交叉注意力层。

类型A多模态模型架构。 输入模态通过使用标准交叉注意力层深入融合到LLM的内部层。交叉注意力可以添加在自注意力层之前或之后。模态特定的编码器处理不同的输入模态。使用重采样器来输出固定数量的模态(视觉/音频/视频)标记,给定输入时变量数量的输入标记。

图片

  • Type-B (CLDF:Custom Layer based Deep Fusion) - 自定义层深度融合:使用定制设计的层(例如自定义交叉注意力层或其他特定层)在模型的内部层进行多模态输入的深度融合。

类型B多模态模型架构。 输入模态通过使用定制设计的层深入融合到LLM的内部层。定制交叉注意力层或其他定制层用于模态融合。线性层/多层感知器/Q-former被用来将不同模态与解码层对齐。

图片

  • Type-C (NTEF:Non-Tokenized Early Fusion) - 非标记化早期融合:在模型的输入阶段进行多模态输入的早期融合,使用模态特定的编码器,但不涉及模型内部层的深度融合。这种类型可能使用线性层/MLP、Q-former、Perceiver resampler或自定义可学习层来连接编码器输出和LLM。

类型C多模态模型架构。(非标记化的)输入模态直接输入到模型的输入端,而不是其内部层,从而实现早期融合。不同类型的模块被用来将模态编码器的输出连接到LLM(模型),例如线性层/多层感知器、Q-former和线性层/多层感知器、Perceiver重采样器、定制的可学习层。

图片

  • Type-D (TEF:Tokenized Early Fusion ) - 标记化早期融合:与Type-C类似,在输入阶段进行早期融合,但使用标记化技术(如tokenizers)来处理模态。

类型D多模态模型架构。 标记化的输入模态直接输入到模型的输入端。在这个架构中,使用仅解码器变换器或编码器-解码器风格的变换器作为多模态变换器。

图片

任意到任意模态模型

任意到任意多模态模型的发展时间线。 从单一模态模型(左侧)到任意到任意模态模型(右侧)的演变过程被描绘出来。图中注明了属于C型和D型的任意到任意多模态模型。底部的绿线展示了非基于变换器的模型(如SSM,状态空间模型)的另一条发展时间线。Mamba是一个语言模型。VL-mamba和Cobra是视觉-语言模型。

图片

https://arxiv.org/pdf/2405.17927
The Evolution of Multimodal Model Architectures

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/764234.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

无线领夹麦克风哪个牌子好,口碑最好的麦克风品牌推荐!

自媒体的兴起极大地推动了音频设备技术的发展,尤其是麦克风,它已成为自媒体创作中不可或缺的工具。从早期的新闻采访到当下流行的网络直播和Vlog,麦克风的应用场景不断扩展。一个视频的音频质量直接影响观众的观看体验,因此&#…

使用Netty框架实现WebSocket服务端与客户端通信(附ssl)

仓库地址: https://gitee.com/lfw1024/netty-websocket 导入后可直接运行 预览页面 自签证书: #换成自己的本地ip keytool -genkey -alias server -keyalg RSA -validity 3650 -keystore D:\mystore.jks -ext sanip:192.168.3.7,ip:127.0.0.1,dns:lo…

【存储】相关内容

【存储】相关内容 1. 存储类型1. 块存储2. 文件存储3. 对象存储4. 三种存储类型对比 2. 常见的存储分类1. DAS2. SAN3. NAS4. 存储分类分析比较 3. 一些存储的概念1. LUN2. volume3. HBA4. iSCSI 1. 存储类型 块存储和文件存储是我们比较熟悉的两种主流的存储类型,…

《昇思25天学习打卡营第21天 | 昇思MindSporePix2Pix实现图像转换》

21天 本节学习了通过Pix2Pix实现图像转换。 Pix2Pix是基于条件生成对抗网络(cGAN)实现的一种深度学习图像转换模型。可以实现语义/标签到真实图片、灰度图到彩色图、航空图到地图、白天到黑夜、线稿图到实物图的转换。Pix2Pix是将cGAN应用于有监督的图…

JavaSE--基础语法--类和对象(第二期)

(一).面向对象的初步认知 1.1什么是面向对象? Java是一门纯面向对象的语言(Object Oriented Program,简称OOP),在面向对象的世界里,一切皆为对象。面向对象是解决问题的一种思想,主要依靠对象…

新手使用超市收银系统应该注意哪些问题?

大部分小型超市都没怎么使用过智能收银系统,都是采用的传统手工收银方式,盘点、进货、库存也都是靠手工记录,完全没有接触过智能收银系统带来的优势和便利。超市收银软件特别是小区里面的超市,就跟传统的夫妻便利店的营销模式差不…

教育心理学期末考试重点

人本主义学习理论 人本主义主张,心理学应当把人作为一个整体来研究,而不是将人的心理肢解为不完整的几个部分,应该研究正常的人,而且更应该关注人的高级心理活动,如热情、信念、生命、尊严等内容。人本主义的学习理论…

【C++】使用C++在线程中动态记录数据到外部文件

在现代软件开发中,多线程编程已成为处理并发任务、提高程序性能的重要手段。而在多线程环境下,如何有效地管理和记录数据,尤其是将动态生成的数据安全地写入外部文件,是许多应用程序必须面对的问题。本文将深入探讨如何在C中使用多…

【运维】Windows server 2022 开启 telnet 功能

控制面板》启动或关闭Windows 功能 仪表盘》添加角色和功能》功能》telnet客户端

python-糖果俱乐部(赛氪OJ)

[题目描述] 为了庆祝“华为杯”的举办,校园中开展了许多有趣的热身小活动。小理听到这个消息非常激动,他赶忙去参加了糖果俱乐部的活动。 该活动的规则是这样的:摊位上有 n 堆糖果,第 i 堆糖果有 ai​ 个,参与的同学可…

全平台7合一自定义小程序源码系统功能强大 前后端分离 带完整的安装代码包以及搭建教程

系统概述 这款全平台 7 合一自定义小程序源码系统是专为满足各种业务需求而设计的。它整合了多种功能,能够在不同平台上运行,为用户提供了全方位的体验。无论你是企业主、开发者还是创业者,这款系统都能为你提供强大的支持。 代码示例 系统…

MATLAB code 生成C代码样式

Matlab code 生成C代码需要以下产品: MATLABMATLAB CoderC 编译器 MATLAB Coder 将查找并使用支持的已安装编译器。 可以使用 mex -setup 更改默认编译器。 在本地工作文件夹中创建文件 创建一个本地工作文件夹,例如 c:\ecoder\work。创建包含以下代…

【Python】Python的安装与环境搭建

个人主页:【😊个人主页】 系列专栏:【❤️Python】 文章目录 前言Python下载环境配置测试环境变量是否配置成功配置环境变量 运行Python交互式解释器:命令行脚本集成开发环境(IDE:Integrated Development E…

电脑IP地址自动获取:操作指南与优势分析

在数字化时代,网络连接已成为我们日常生活和工作中的重要组成部分。而在建立网络连接的过程中,IP地址的设置无疑是至关重要的一环。IP地址,作为网络设备的唯一标识,其设置方式直接影响到网络的稳定性和安全性。本文将详细介绍如何…

大数据、人工智能、云计算、物联网、区块链序言【大数据导论】

各位大佬好 ,这里是阿川的博客,祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 本篇序言前 必看 【大数据导论】—大数据序言 这是…

山东益康,聚焦绿葆医院场景媒体,用爱服务人类健康

山东益康集团创建于1983年,发展成为集药品研发生产、销售、特医功能食品、精细化工、医疗防护产品等多产业经营为一体的省级企业集团。益康集团紧跟国家发展战略,满足民众日益增长的健康需求,将食品生产向特医保健功能食品转型升级&#xff0…

校园兼职小程序的设计

管理员账户功能包括:系统首页,个人中心,商家管理,管理员管理,用户管理,兼职管理,论坛管理,公告管理 微信端账号功能包括:系统首页,公告,兼职&…

【TS】TypeScript 入门指南:强大的JavaScript超集

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 TypeScript 入门指南:强大的JavaScript超集一、TypeScript 简介1.1 …

【Python】已解决:ValueError: If using all scalar values, you must pass an index

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决:ValueError: If using all scalar values, you must pass an index 一、分析问题背景 在Python编程中,尤其是当使用pandas库进行数据分析和处理时&a…

技巧类题目

目录 技巧类题目 136 只出现一次的数字 191 位1的个数 231. 2 的幂 169 多数元素 75 颜色分类 (双指针) 287. 寻找重复数 136 只出现一次的数字 给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均…