多模态大模型:基础架构

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

多模态大型语言模型(MLLM)是人工智能领域的前沿创新,它结合了语言和视觉模型的功能,可以处理复杂的任务,如视觉问答和图像字幕。这些模型利用大规模预训练,集成了多种数据模态,以显著提高其在各种应用程序中的性能。

架构概览

较为常见的MLLM框架可以分为三个主要模块:接收且有效编码的多模态编码器、多模态之间数据对齐的投影器、和接收对齐信号并执行推理的大语言模型。当然各种项目总有自己的差异化设计,例如Chameleon或者Octo。<可以随链接查看!>

MLLM的主要的优化方向,在于处理高分辨率图像、压缩视觉标记(token)、多模态对齐、高效结构和利用紧凑语言模型等。下图是一些MLLM的部分例子,将其中的基座LLM、视觉编码器、图像分辨率和投影器列具出来。

视觉编码器

来看看视觉编码器,与主流MLLM实践一致,基本上都是选择CLIP<链接查看详情!>的预训练模型。这种方法有助于更好地对齐视觉和文本输入的特征空间。视觉编码器在MLLM参数中所占比例相对较小,因此与语言模型相比,轻量级优化不是刚需。

单一的编码器肯定无法在不同的任务中始终表现出色,将各种偏差的数据编码器进行联动则能够产生令人惊讶的相似结果。

BRAVE的深度消融实验证明了上述的结论。BRAVE按顺序连接了K个不同视觉编码器的特征(上图左)。之后这些串联特征被MEQ-Former进一步提炼(上图右)。

多个视觉编码器的确有助于捕捉广泛的视觉表征,从而增强模型对视觉数据的理解。Cobra将DINOv2和SigLIP集成为其视觉主干,其原理是将DINOv2的低级空间特征与 SigLIP提供的语义属性相结合将提高后续任务的性能。SPHINX-X采用两个视觉编码器DINOv2和CLIP-ConvNeXt。

鉴于这些基础模型已经通过不同的学习方法(自监督与弱监督)和网络架构(ViT与 CNN)进行预训练,应该能够提供互补和复杂的视觉表征。

这些术语将在后续的文章中逐一讲解!可以关注“具身智能”专栏!

轻量级视觉编码器Vision Transformer架构在实际应用中由于硬件和环境限制而面临挑战。ViTamin代表一种轻量级视觉模型,专门针对视觉和语言模型量身定制。依照下图所示,通过两层的MBC外加一层的注意力块完成视觉编码,然后和文本一起进行对比学习。

值得一提,ViTamin-XL的参数数量只有436M,却达到了ImageNet zero-shot 82.9%的准确率,超过了EVA-E的准确率82.0%。要知道EVA-E的参数数量为4.4B。

视觉投影器

视觉投影器的目的在于将视觉嵌入(Visual embeddings)等输入映射到文本空间(Text Embeddings)中。换句话说也就是将不同模态进行对齐。

1)投影,相信读者最直观的就是线性投影仪或多层感知器(MLP)来实现,可以理解就是最普通的神经网络。比如几层的神经网与非线性激活函数组合而成。

2)部分的投影基于注意力机制。BLIP2引入Q-Former,这是一种轻量级转换器,它使用一组可学习的查询向量从冻结的视觉模型中提取视觉特征。

Q-former基于对比学习进行训练,上图右侧展示了由Flamingo提出的感知重采样器(Perceiver Resampler)考虑在交叉注意力中使用earned Queries(上图彩色序列块)作为Q,而图像特征展开与Q连接起来,在交叉注意力中充当K和V。

上图为BLIP-2的第二阶段架构,通过这种方式,在Learned Queries的相应位置的转换器输出被作为视觉特征的聚合表示,从而将可变长度的视频帧特征标准化为固定大小的特征。

3)部分的投影基于CNN。MobileVLMv2提出了LDPv2,这是一种新的投影。由三部分组成:特征转换、Token压缩和位置信息增强。通过使用逐点卷积层、平均池化和具有跳跃连接的PEG模块,LDPv2实现了更高的效率,与原始LDP相比,参数减少了99.8%,处理速度略快。

4)最后还有基于大名鼎鼎的Mamba,VL-Mamba在其视觉语言投影仪中实现了2D视觉选择性扫描(VSS)技术,促进了不同学习方法的融合。

5)和所有武功都有最后一式一样,投影可以采用混合架构。Honeybee提出了两种视觉投影仪的组合,即C-Abstractor和D-Abstractor,它们遵循两个主要设计原则:(i)在视觉Token数量生成方面提供适应性,以及(ii)有效地维护本地上下文。下图详细的展示了Honeybee的投影混合架构:

C-Abstractor,或卷积抽象器,专注于通过采用卷积架构来熟练地对局部上下文进行建模。该结构由L个ResNet块组成,然后紧接着是额外的L个ResNet块,这有助于将视觉特征抽象为任意平方数量的视觉标记。而D-Abstractor是基于Deformable注意力的Abstractor。

视觉Token压缩

MLLM在需要复杂识别的任务中面临着相当大的挑战,尤其是带有OCR的场景。尽管提高图像分辨率可以解决,然而增加视觉Token的数量给MLLM带来了巨大的计算负担,这主要是由于Transformer架构中计算成本与输入Token数量呈二次比例,因此如何优化则成为这个领域很热门的主题。

直接使用高分辨率视觉编码器进行细粒度感知的成本高,并且不符合实际使用要求。为了让MLLM能够感知细节且实现低分辨率的编码能力,一般会利用全局视图进行图片规模的压缩以及通过拆分衍生局部的图像块(Patch)。

LLaVA-UHD提出了一种图像模块化策略,将原生分辨率的图像划分为更小的可变大小切片,以实现高效和可扩展的编码。注意下图左侧,这个框架自动的选择最优的切分方案。

此外,InternLM-XComposer2-4KHD 引入了一种通过自动布局排列动态调整分辨率的策略,不仅可以保持图像的原始纵横比,还可以自适应地改变Patch布局和计数,从而提高图像信息提取的效率。

通过对不同分辨率的图像实施自适应输入策略,可以在感知能力和效率之间实现平衡。如上图所示,说白了就是将原图压缩和切块一起进行编码。

Mini-Gemini由两个编码器组成,一个用于高分辨率图像,另一个用于低分辨率视觉嵌入。它提出了patch的信息挖掘,它使用低分辨率的视觉嵌入作为查询,通过交叉注意力从高分辨率候选者那里检索相关的视觉线索。

Scaling on Scales表明,多尺度较小模型的学习能力与较大模型相当,并且预训练较小的模型可以在MLLM基准测试上匹配甚至超过较大模型的优势,同时计算效率更高。

S2-Wrapper是一种简单的机制,它可以以无参数的方式将任何预训练的视觉模型扩展到多个图像尺度。以ViT-B为例,S2-Wrapper将输入图像插值到不同的尺度(例如224^2和448^2),然后将每个尺度分割成几个与默认输入大小相同的子图像(448^2→4×224^2)。对于每个尺度,所有子图像都被输入到同一个模型中,输出(例如4×16^2)被合并到整个图像的特征图中(32^2)。不同尺度的特征图被平均池化到原始空间大小(16^2)并连接在一起。最终的多尺度特征具有与单尺度特征相同的空间形状,但有更高维度(例如1536 vs 768)。

小结

MLLM的主要问题是资源需求,训练这些模型需要大量的计算资源,通常只有拥有大量预算的大型企业才能使用。例如,在 NVIDIA A100 GPU上训练像MiniGPT-v2这样的模型需要超过800个GPU小时,这对于许多学术研究人员和小公司来说成本是巨大的。此外,推理的高计算成本进一步加剧了这个问题,使得在边缘计算等资源受限的环境中部署这些模型变得困顿。OpenAI的GPT-4V和谷歌的Gemini等模型通过大规模预训练取得了显著的性能,但它们的计算需求限制了它们的使用。

目前应对这些挑战的方法集中在优化MLLM的效率上,需要MLLM采用多种创新技术来解决资源消耗问题。其中包括引入更轻的架构,旨在降低参数和计算复杂性。例如,MobileVLM和LLaVA-Phi等模型使用视觉Token压缩和高效的视觉语言投影器来提高效率。

通过采用Token压缩和轻量级模型结构,这些模型实现了计算效率的显著提高,并拓宽了其应用范围。例如,与以前的型号相比,LLaVA-UHD支持处理分辨率高达6倍的图像,只需94%的计算量。这使得在学术环境中训练这些模型成为可能,一些模型只需23小时即可使用8个A100 GPU进行训练。值得一提的是,这些效率的提高不是以牺牲性能为代价的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/713665.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【使用 WSL子系统 在 Windows 上安装 Linux(官方教程)】

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、使用 wsl --install二、额外的命令 前言 在最新的Windows Insider Preview版本中&#xff0c;只需运行wsl.exe-install&#xff0c;就可以安装运行WSL所需…

Matlab|基于V图的配电网电动汽车充电站选址定容-可视化

1主要内容 基于粒子群算法的电动汽车充电站和光伏最优选址和定容 关键词&#xff1a;选址定容 电动汽车 充电站位置 仿真平台&#xff1a;MATLAB 主要内容&#xff1a;代码主要做的是一个电动汽车充电站和分布式光伏的选址定容问题&#xff0c;提出了能够计及地理因素和服…

【原创】springboot+mysql小区用水监控管理系统设计与实现

个人主页&#xff1a;程序猿小小杨 个人简介&#xff1a;从事开发多年&#xff0c;Java、Php、Python、前端开发均有涉猎 博客内容&#xff1a;Java项目实战、项目演示、技术分享 文末有作者名片&#xff0c;希望和大家一起共同进步&#xff0c;你只管努力&#xff0c;剩下的交…

C++ 45 之 赋值运算符的重载

#include <iostream> #include <string> #include <cstring> using namespace std;class Students05{ public:int m_age;char* m_name;Students05(){}Students05(const char* name,int age){// 申请堆空间保存m_name;this->m_name new char[strlen(name)…

Kotlin 语言基础学习

什么是Kotlin ? Kotiln翻译为中文是:靠他灵。它是由JetBrains 这家公司开发的,JetBrains 是一家编译器软件起家的,例如常用的WebStorm、IntelliJ IDEA等软件。 Kotlin官网 JetBrains 官网 Kotlin 语言目前的现状: 目前Android 已将Kotlin 作为官方开发语言。 Spring 框…

应急响应 | 基本技能 | 01-系统排查

系统排查 目录 系统基本信息 Windows系统Linux系统 用户信息 Windows系统 1、命令行方式2、图形界面方法3、注册表方法4、wmic方法 Linux系统 查看所有用户信息分析超级权限账户查看可登录的用户查看用户错误的登录信息查看所有用户最后的登录信息查看用户最近登录信息查看当…

快速上手SpringBoot

黑马程序员Spring Boot2 文章目录 1、SpringBoot 入门程序开发1.1 创建一个新的项目 2、浅谈入门程序工作原理2.1 parent2.2 starter2.3 引导类2.4 内嵌tomcat 1、SpringBoot 入门程序开发 1.1 创建一个新的项目 file > new > project > empty Project 创建新模块&a…

ubuntu20.04桌面蓝屏问题解决

前些天做仿真项目&#xff0c;遇到了ubuntu蓝屏问题&#xff0c;于是想着找几个参考办法修复&#xff0c;但不管用&#xff0c;疑似是重要组件损坏。 损坏的原因是强制关机&#xff0c;但究竟是强制关了哪一个卡死的进程&#xff0c;不得而知&#xff0c;我有一个关不掉的仿真…

Waf 绕过手法测试

设备类型 由上到下,waf的检测细腻度依次降低 网络层WAF&#xff1a;先拦截流量&#xff0c;进行检测后再转发给 应用层WAF&#xff1a;先经过apache/nginx解析后再交给php处理 云 WAF&#xff08;CDNWAF&#xff09;&#xff1a;简单的看成CDN加上软件WAF的结合体&#xff0c…

vue格网图

先看效果 再看代码 <n-gridv-elsex-gap"20":y-gap"20"cols"2 s:2 m:3 l:3 xl:3 2xl:4"responsive"screen" ><n-grid-itemv-for"(item,index) in newSongList":key"item.id"class"cursor-pointer …

Spring底层架构核心概念解析

BeanDefinition BeanDefinition表示Bean定义,BeanDefinition中存在很多属性用来描述一个Bean的特点.比如: beanClass:表示Bean类型scope:表示Bean作用域,单例/原型等lazyInit:表示Bean是否懒加载initMethodName:表示Bean初始化时要执行的方法destoryMethodName:表示Bean销毁时…

文章解读与仿真程序复现思路——电工技术学报EI\CSCD\北大核心《计及台风时空特性和灵活性资源协同优化的配电网弹性提升策略》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

SpringBootWeb 篇-入门了解 Spring Cache 、Spring Task 与 WebSocket 框架

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 Spring Cache 概述 1.1 Spring Cache 具体使用 1.1.1 引入依赖 1.1.2 Spring Cache 相关注解的介绍 2.0 Spring Task 概述 2.1 cron 表达式 2.2 Spring Task 使用…

程序猿大战Python——函数——拆包和交换变量值与引用

拆包 目标&#xff1a;了解拆包的使用。 先来看看在现实生活中的拆包。比如&#xff0c;张同学背着背包来教室上课后&#xff0c;需要从背包中拿出电脑、鼠标、数据线、电源线等&#xff0c;这个过程就是拆包! 接着&#xff0c;看一下在Python程序中的拆包&#xff1a;把组合形…

基于单片机和GP2Y1010AU粉尘传感器的空气质量检测仪设计

摘要 随着社会的发展,随着工业的发展,其给人们的生活带来很多便利。然而,工业生产过程中会产生很多对人体有害的因素,比如煤炭开采、水泥生产等行业中的粉尘污染。其在各种危害因素中对人体健康的影响最为严重。粉尘对人体的危害最直接、最严重的是引起尘肺病。当粉尘浓度过…

云原生技术实现Devops自动化运维

云原生技术实现Devops自动化运维 随着云计算和DevOps理念的普及&#xff0c;云原生技术在自动化运维中的应用日益广泛。本文将探讨云原生技术如何通过容器化、微服务架构、CI/CD流水线等手段&#xff0c;提升DevOps自动化运维的效率和灵活性&#xff0c;并通过案例分析具体应用…

Day01_Ajax入门

文章目录 学习目标一、AJAX 概念和 axios 使用1. 目标2. 讲解2.1 什么是 AJAX ?2.2 什么是服务器&#xff1f;2.3 为何学 AJAX ?2.4 怎么学 AJAX ?2.5 例子2.6 axios语法 二、认识 URL1. 目标2. 讲解2.1 为什么要认识 URL ?2.2 什么是 URL &#xff1f;2.3 URL的组成 &…

架构设计 - WEB项目的基础序列化配置

摘要&#xff1a;web项目中做好基础架构(redis&#xff0c;json)的序列化配置有重要意义 支持复杂数据结构&#xff1a;Redis 支持多种不同的数据结构&#xff0c;如字符串、哈希表、列表、集合和有序集合。在将这些数据结构存储到 Redis 中时&#xff0c;需要将其序列化为字节…

IT入门知识博客文章大纲(0/10)

IT入门知识博客文章大纲 引言 什么是IT&#xff1f; 信息技术&#xff08;Information Technology&#xff09;&#xff0c;互联网技术是指在计算机技术的基础上开发建立的一种信息技术 。互联网技术通过计算机网络的广域网使不同的设备相互连接&#xff0c;加快信息的传输速度…