MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略

MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略

目录

相关文章

AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读

MLM之CLIP:CLIP(对比语言-图像预训练模型)的简介、安装和使用方法、案例应用之详细攻略

多模态大型语言模型的简介

1、视觉语言模型(VLMs)

架构:三大组件包括图像编码器、文本编码器、融合策略

对比学习:一种通过计算实例间的相似度分数来理解数据差异的技术,适用于半监督学习场景

典型的应用场景

2、音频或语音大型语言模型

音频数据的标记化和预处理

微调技术

多模态大型语言模型的微调

T1、参数高效微调PEFT

T2、全参数微调

多模态大型语言模型的代表性模型

Gemini

MMLM之Gemini:《Introducing Gemini: our largest and most capable AI model》的翻译与解读

MLM之Gemini:Gemini Pro 1.5的简介、安装和使用方法、案例应用之详细攻略

GPT-4

MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略

MLM之GPT:GPT-4o mini(最具成本效益的GPT-4o)的简介、安装和使用方法、案例应用之详细攻略

InternVL

MLM之InternVL:InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略

Llama-3

MLM之CogVLM2:CogVLM2(基于Llama-3-8B-Instruct 模型进行微调)的简介、安装和使用方法、案例应用之详细攻略

GLM-4

MLM之GLM-4:GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略

Claude 3

MLMs之Claude:Claude 3.5 Sonnet的简介、安装和使用方法、案例应用之详细攻略

CogVideo

MLM之CogVideo:CogVideo(国产版Sora)的简介、安装和使用方法、案例应用之详细攻略

Qwen2

MLM之Qwen:Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略

多模态模型的应用场景

(1)、手势识别:解读和识别人类手势,促进手语翻译。

(2)、视频摘要:通过提取关键视觉和音频元素,生成视频摘要。

(3)、教育工具:提供互动式教育内容,响应学生的视觉和语言提示。

(4)、虚拟助手:通过理解语音命令和处理视觉数据,实现智能家居自动化和数字助手服务。

多模态大型语言模型的案例应用

1、医学领域的案例研究:Med VQA 

实战应用

AI之LLM/MLM:Nvidia官网人工智能大模型工具合集(大语言模型/多模态模型,文本生成/图像生成/视频生成)的简介、使用方法、案例应用之详细攻略


相关文章

AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读

AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读-CSDN博客

MLM之CLIP:CLIP(对比语言-图像预训练模型)的简介、安装和使用方法、案例应用之详细攻略

MLM之CLIP:CLIP(对比语言-图像预训练模型)的简介、安装和使用方法、案例应用之详细攻略_this graphics driver could not find compatible gra-CSDN博客

多模态大型语言模型的简介

多模态模型是能够处理多种模态信息(如图像、视频和文本)的机器学习模型。它们能够分析和生成不同模态的数据。例如,Google 的多模态模型 Gemini 可以通过分析图片生成文字描述或根据文字生成图像。

多模态模型是一种能够处理来自多种模态(如图像、视频和文本等)信息的机器学习模型。多模态大型语言模型(LLM)在生成式人工智能的基础上,扩展了处理多种模态信息的能力。这使得模型能够理解和解释不同的感官模式,允许用户输入各种类型的数据,并返回多样化的内容类型。

多模态LLMs在处理不同类型的输入数据和生成多样化的输出内容方面展示了巨大的潜力。这种能力不仅推动了人工智能技术的发展,也为各个行业的应用提供了新的机会和可能性。通过不断改进的模型架构和优化策略,多模态模型正在成为多种应用场景中的关键工具。

多模态 AI 与生成式 AI 的区别:生成式 AI 通常从单一模态(如文本、图像)生成新内容(如文本、图像、音乐、音频和视频等),而多模态 AI 能够从多种模态(如图像、视频、文本)中处理和生成信息,实现跨感官模式的理解和交互。,这使得AI能够理解和解释不同的感官模式,允许用户输入各种类型的数据,并返回多样化的内容类型。

1、视觉语言模型(VLMs)

视觉语言模型(Vision Language Models,VLMs)是多模态模型的一种,能够从图像和文本输入中学习。它们属于生成模型的范畴,利用图像和文本数据生成文本输出。这些模型,尤其是在更大规模下,展示了强大的零样本能力,能够在各种任务中表现出色,并能够有效处理各种类型的视觉数据,如文档和网页。

架构:三大组件包括图像编码器、文本编码器、融合策略

视觉语言模型有效整合了视觉和文本信息,主要依赖于以下三个基本组件:
>> 图像编码器(Image Encoder):将视觉数据(图像)转换为模型可以处理的格式。
>> 文本编码器(Text Encoder):类似于图像编码器,将文本数据(单词和句子)转换为模型可以理解的格式。
>> 融合策略(Fusion Strategy):将图像和文本编码器的信息结合起来,融合成统一的表示。

这些组件协同工作,模型的学习过程(损失函数)特别针对所采用的架构和学习策略进行优化。

视觉语言模型的一个关键方面是预训练。在应用于特定任务之前,模型在大量数据集上使用精心挑选的目标进行训练。这种预训练使得模型具备了在各种下游应用中表现出色的基础知识。

对比学习:一种通过计算实例间的相似度分数理解数据差异的技术,适用于半监督学习场景

对比学习是一种专注于理解数据点之间差异的技术。它计算实例之间的相似度分数,并旨在最小化对比损失,这在半监督学习中特别有用,因为它利用有限数量的标记样本来优化过程,以对未见的数据点进行分类。

工作原理:例如,为了识别一只猫,对比学习将一只猫的图像与另一只猫的相似图像以及一只狗的图像进行比较。模型通过识别面部结构、身体大小和毛发等特征来区分猫和狗。通过确定哪幅图像更接近“猫”图像,模型预测其类别。

典型的应用场景

涉及图像的对话互动

基于文本指令的图像解释

回答与视觉内容相关的问题

理解文档

为图像生成标题等

高级的视觉语言模型还能够理解图像中的空间属性,可以根据请求生成边界框或分割掩码以识别或隔离特定主题,定位图像中的实体,或回答关于其相对或绝对位置的查询。

2、音频或语音大型语言模型

音频或语音 LLMs 是基于音频输入理解和生成人类语言的模型,主要用于语音识别、文本转语音(TTS)转换和自然语言理解任务。

音频或语音大型语言模型(LLMs)旨在基于音频输入理解和生成人类语言。这些模型应用于语音识别、文本转语音转换和自然语言理解任务。它们通常在大型数据集上进行预训练以学习通用的语言模式,然后在特定任务或领域上进行微调以提高性能。

音频和语音大型语言模型代表了语言处理与音频信号集成的重大进展。这些模型通过定制的音频标记的引入,增强了处理多模态数据的能力。与文本不同,音频信号是连续的,需要离散化为可管理的音频标记。诸如HuBERT和wav2vec等技术用于将音频转换为标记格式,使LLM能够与文本一起处理。

音频数据的标记化和预处理

将音频信号离散化为可管理的音频标记,常用技术包括 HuBERT 和 wav2vec。

微调技术

全参数微调:更新模型的所有参数。

层特定微调:仅更新模型的特定层或模块,减少计算需求。

组件微调:冻结某些部分,仅微调线性投影器或特定适配器。

多模态大型语言模型的微调

微调多模态大语言模型通常使用高效参数微调(PEFT)技术,如 LoRA、QLoRA 等。与单模态 LLM 的微调类似,主要差异在于输入数据的性质。

T1、参数高效微调PEFT

多模态大型语言模型(MLLMs)的微调可以使用PEFT技术(如LoRA和QLoRA)。多模态应用的微调过程类似于大型语言模型的微调,主要区别在于输入数据的性质。除了LoRA(使用矩阵分解技术来减少参数数量)外,其他工具如LLM-Adapters和(IA)³也可以有效地使用。LLM-Adapters通过在预训练模型架构中集成各种适配器模块,实现参数高效的微调,通过仅更新适配器参数而保持基模型参数不变。(IA)³通过抑制和放大内部激活的注入适配器,学习权重向量来权衡模型参数,通过激活乘法,支持稳健的少样本性能和任务混合,无需手动调整。

此外,动态适应技术如DyLoRA允许在不同的秩之间训练低秩适应块,通过在训练期间排序表示优化学习过程。LoRA-FA(LoRA的变体)通过在初始化后冻结第一个低秩矩阵并将其用作随机投影,同时训练另一个矩阵,从而优化微调过程,减少了一半的参数数量而不牺牲性能。

>> LoRA 和 QLoRA:利用矩阵分解技术减少参数数量。

>> LLM-Adapters:通过集成适配器模块,进行参数高效的微调。

>> (IA)³:通过学习向量来调整模型参数的激活乘积,支持强大的少样本性能和任务混合。

>> 动态适应技术(DyLoRA):允许不同秩的低秩适应块的训练,优化学习过程。

T2、全参数微调

方法如LOMO和MeZO专注于内存效率。LOMO利用来自随机梯度下降(SGD)的低内存优化技术,减少了通常与ADAM优化器相关的内存消耗。而MeZO提供了一种内存高效的优化器,只需要两个前向传递来计算梯度,使得大模型的全面微调成为可能,其内存占用相当于推理时的内存消耗。

多模态大型语言模型的代表性模型

持续更新中……

Gemini

MMLM之Gemini:《Introducing Gemini: our largest and most capable AI model》的翻译与解读

MMLM之Gemini:《Introducing Gemini: our largest and most capable AI model》的翻译与解读-CSDN博客

MLM之Gemini:Gemini Pro 1.5的简介、安装和使用方法、案例应用之详细攻略

MLM之Gemini:Gemini Pro 1.5的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

GPT-4

MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略

MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略_gpt4o 窗口长度-CSDN博客

MLM之GPT:GPT-4o mini(最具成本效益的GPT-4o)的简介、安装和使用方法、案例应用之详细攻略

MLM之GPT:GPT-4o mini(最具成本效益的GPT-4o)的简介、安装和使用方法、案例应用之详细攻略_gpt-4o-mini(version:2024-07-18)-CSDN博客

InternVL

MLM之InternVL:InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略

MLM之InternVL:InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略_internvl模型-CSDN博客

Llama-3

MLM之CogVLM2:CogVLM2(基于Llama-3-8B-Instruct 模型进行微调)的简介、安装和使用方法、案例应用之详细攻略

MLM之CogVLM2:CogVLM2(基于Llama-3-8B-Instruct 模型进行微调)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

GLM-4

MLM之GLM-4:GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略

MLM之GLM-4:GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Claude 3

MLMs之Claude:Claude 3.5 Sonnet的简介、安装和使用方法、案例应用之详细攻略

MLMs之Claude:Claude 3.5 Sonnet的简介、安装和使用方法、案例应用之详细攻略_claude3.5-CSDN博客

CogVideo

MLM之CogVideo:CogVideo(国产版Sora)的简介、安装和使用方法、案例应用之详细攻略

MLM之CogVideo:CogVideo(国产版Sora)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Qwen2

MLM之Qwen:Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略

MLM之Qwen:Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

多模态模型的应用场景

(1)、手势识别:解读和识别人类手势,促进手语翻译。

>> 手势识别:这些模型可以解释和识别人类手势,对于手语翻译至关重要。多模态模型通过处理手势并将其转换为文本或语音,促进了包容性沟通。

(2)、视频摘要:通过提取关键视觉和音频元素,生成视频摘要。

>> 视频摘要:多模态模型能够通过提取关键的视觉和音频元素来总结长视频。这种能力简化了内容消费,使内容浏览更加高效,并增强了视频内容管理平台。

>> 生成图像:例如DALL-E,是一种从文本描述生成图像的多模态AI。这项技术扩展了内容创作和视觉叙事的创造性可能性,应用于艺术、设计、广告等领域。

(3)、教育工具:提供互动式教育内容,响应学生的视觉和语言提示。

>> 教育工具:多模态模型通过提供响应学生视觉和口头提示的互动教育内容来增强学习体验。它们是自适应学习平台的关键,能够根据学生的表现和反馈调整内容和难度。

(4)、虚拟助手:通过理解语音命令和处理视觉数据,实现智能家居自动化和数字助手服务。

>> 虚拟助手:多模态模型通过理解和响应语音命令,同时处理视觉数据,实现了全面的用户交互。它们对于智能家居自动化、语音控制设备和数字个人助理至关重要。

多模态大型语言模型的案例应用

1、医学领域的案例研究:Med VQA 

多模态模型在医学领域的视觉问答(VQA)任务中也有应用。通过PEFT微调技术,这些模型在Med-VQA应用中显示了优异的性能,整体准确率为81.9%,在封闭式问题上超越了GPT-4v模型26%的绝对准确率。模型包括三个组件:视觉编码器、处理多模态输入和生成响应的预训练大型语言模型(LLM)、以及用于将视觉编码空间的嵌入投影到LLM空间的单线性层。

研究展示了在视觉问答(VQA)任务上微调多模态大语言模型(MLLMs)的应用,特别是在医学图像问答任务中的表现。

模型架构:包括视觉编码器、预训练的大语言模型(LLM)和用于将视觉编码空间嵌入到 LLM 空间的线性投影层。

微调方法

第一阶段:使用医学图像-标题数据集进行图像标题生成的微调。

第二阶段:在医学 VQA 数据集上进行 VQA 任务的微调。

实战应用

AI之LLM/MLM:Nvidia官网人工智能大模型工具合集(大语言模型/多模态模型,文本生成/图像生成/视频生成)的简介、使用方法、案例应用之详细攻略

AI之LLM/MLM:Nvidia官网人工智能大模型工具合集(大语言模型/多模态模型,文本生成/图像生成/视频生成)的简介、使用方法、案例应用之详细攻略_英伟达官网使用大模型-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/872945.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

012.Oracle-索引

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉&…

LLM 模型压缩之三: FoldGPT

0. 资源链接 论文: FoldGPT: Simple and Effective Large Language Model Compression Scheme 项目: to be released. 1. 背景动机 现有的大语言模型推理存在以下问题: LLM 模型因为有大量的参数,以及 next token 的预测方式,导致 LLM 模…

攻防世界 unseping

unseping 攻防世界web新手练习 -unseping_攻防世界web新手题unseping-CSDN博客 这道题对我来说还是有点难&#xff0c;什么oct绕过命令执行第一次遇到捏&#xff0c;所以基本是跟着别人的wp写的&#xff0c;一点点记录吧 先对源码进行分析 <?php highlight_file(__FILE…

OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 - 通过aclnn调用的方式调用AddCustom算子

OrangePi AIpro 香橙派 昇腾 Ascend C 算子开发 与 调用 通过aclnn调用的方式调用 - AddCustom算子 - 单算子API执行(aclnn) 多种算子调用方式 *开发时间使用场景调用方式运行硬件基于Kernel直调工程&#xff08;快速&#xff09;少单算子调用&#xff0c;快速验证算法逻辑IC…

打造个性化时装购物平台:Spring Boot框架的实践

第1章 绪论 1.1背景及意义 随着社会的快速发展&#xff0c;计算机的影响是全面且深入的。人们生活水平的不断提高&#xff0c;日常生活中人们对时装购物系统方面的要求也在不断提高&#xff0c;喜欢购物的人数更是不断增加&#xff0c;使得时装购物系统的开发成为必需而且紧迫的…

面试必备:接口自动化测试精选面试干货

一、 请问你是如何做接口测试的&#xff1f; 大体来说&#xff0c;经历以下过程&#xff1a;接口需求调研、接口测试工具选择、接口测试用例编写、接口测试执行、接口测试回归、接口测试自动化持续集成。具体来说&#xff0c;接口测试流程分成以下九步&#xff1a; 第一步&am…

2024年,女生到底适合转行ui设计还是软件测试?

作为2024年的就业选择来说&#xff0c;软件测试和UI设计发展都挺不错的 选择这两个方向转行的女生很多。但具体选择测试还是UI设计&#xff0c;最好还是根据你个人的兴趣爱好以及长期的发展路径去选择 比如&#xff1a;薪资、工作稳定性、后续晋升空间、学习难度等等方面~ 如…

Kafka【十三】消费者消费消息的偏移量

偏移量offset是消费者消费数据的一个非常重要的属性。默认情况下&#xff0c;消费者如果不指定消费主题数据的偏移量&#xff0c;那么消费者启动消费时&#xff0c;无论当前主题之前存储了多少历史数据&#xff0c;消费者只能从连接成功后当前主题最新的数据偏移位置读取&#…

论文解读 | KDD2024 演化图上的森林矩阵快速计算

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 点击 阅读原文 观看作者直播讲解回放&#xff01; 作者简介 孙浩鑫&#xff0c;复旦大学博士生&#xff0c;主要研究方向为大规模图上快速算法设计。 概述 森林矩阵在网络科学、观点动力学和机器学习相关应用中…

(一)十分简易快速 自己训练样本 opencv级联haar分类器 车牌识别

🍂1、不说废话,现象展示 🍃图片识别 🍃视频识别 自己训练样本 十分简易快速 opencv级联ha

系统架构师考试学习笔记第三篇——架构设计高级知识(19)嵌入式系统架构设计理论与实践

本章考点&#xff1a; 第19课时主要学习嵌入式系统架构设计的理论和工作中的实践。根据新版考试大纲&#xff0c;本课时知识点会涉及案例分析题&#xff08;25分&#xff09;。在历年考试中&#xff0c;案例题对该部分内容都有固定考查&#xff0c;综合知识选择题目中有固定分值…

关于C++数组越界的异常

数组越界一般是很难发现的,而且并不是每次都会崩溃. 比如说定义一个数字 #DEFINE MAX_ARRAY 5 int m_IntArray[MAX_ARRAY]; 我们在初始化的时候,故意给他越界,这个时候一般是不会报错的. for(int i0;i<15;i) { m_IntArray[i]0; } 尤其是全局变量,居然一点提示都没有,局部变…

基于约束大于规范的想法,封装缓存组件

架构&#xff1f;何谓架构&#xff1f;好像并没有一个准确的概念。以前我觉得架构就是搭出一套完美的框架&#xff0c;可以让其他开发人员减少不必要的代码开发量&#xff1b;可以完美地实现高内聚低耦合的准则;可以尽可能地实现用最少的硬件资源&#xff0c;实现最高的程序效率…

jmeter执行python脚本,python脚本的Faker库

jmeter安装 jython的插件jar包 通过如下地址下载jython-standalone-XXX.jar包并放到jmeter的XXX\lib\ext目录下面 Downloads | JythonThe Python runtime on the JVMhttps://www.jython.org/download.html 重启jmeter在JSR223中找到jython可以编写python代码执行 python造数据…

Minimax-秋招正式批-面经(SQL相关)

1. 谈谈对聚簇索引的理解 聚簇索引 InnoDB通过主键聚集数据&#xff0c;如果没有定义主键&#xff0c;InnoDB会选择非空的唯一索引代替。如果没有这样的索引&#xff0c;InnoDB会隐式定义一个主键来作为聚簇索引聚簇索引就是按照每张表的主键构造一颗B树&#xff0c;同时叶子…

redis之缓存淘汰策略

1.查看redis的最大占用内存 使用redis-cli命令连接redis服务端&#xff0c;输入命令&#xff1a;config get maxmemory 输出的值为0&#xff0c;0代表redis的最大占用内存等同于服务器的最大内存。 2.设置redis的最大占用内存 编辑redis的配置文件&#xff0c;并重启redis服务…

【软考】设计模式之代理模式

目录 1. 说明2. 应用场景3. 结构图4. 构成5. 适用性6. 优点7. 缺点8. java示例 1. 说明 1.代理模式&#xff08;Proxy Pattern&#xff09;。2.意图&#xff1a;为其他对象提供一种代理以控制对这个对象的访问。3.通过提供与对象相同的接口来控制对这个对象的访问。4.是设计模…

WordPress独立资源下载页面插件美化版

插件介绍&#xff1a; xydown是一款wordpress的独立下载页面插件&#xff0c;主要适用于wp建站用户使用&#xff0c;有些用户在发布文章的时候想要添加一些下载资源&#xff0c;使用这款插件可以把下载的内容独立出来&#xff0c;支持添加本地下载或者百度网盘蓝奏网盘的网址&…

FreeRTOS学习笔记—④RTOS通信管理篇/同步互斥与通信(正在更新中)

二、RTOS的核心功能 RTOS的核心功能块主要分为任务管理、内核管理、时间管理以及通信管理4部分&#xff0c;框架图如下所示&#xff1a;   &#xff08;1&#xff09;任务管理&#xff1a;负责管理和调度任务的执行&#xff0c;确保系统中的任务能够按照预期运行。   &…

uni-appH5项目实现导航区域与内容区域联动效果

一、需求描述 将导航区域与内容区域实现联动&#xff0c;即点击导航区域&#xff0c;内容区滚动到对应位置&#xff0c;内容区滚动过程中根据内容定位到相对应的导航栏。 效果如下&#xff1a; 侧边导航与内容联动效果 二、功能实现思路分析汇总&#xff1a; 三、具体代码 1…