TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型!

独家作者(csdn、掘金、知乎、微信公众号):PaperAgent

每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己

一、论文信息

  • 论文题目:TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
  • 论文链接:https://arxiv.org/abs/2312.16862
  • Github:https://github.com/DLYuanGod/TinyGPT-V

二、概要

该文件介绍了TinyGPT-V,这是一种高效的多模态大语言模型(MLLM),它将小语言主干与预训练的视觉模块相结合。作者强调了闭源mlm带来的挑战和现有开源模型的计算需求。他们提出TinyGPT-V作为一种解决方案,它需要更少的计算资源,同时仍能实现令人印象深刻的性能。该模型利用Phi-2语言主干和来自BLIP-2或CLIP的预训练视觉模块。TinyGPT-V独特的量化过程允许在8G设备上进行本地部署和推理。作者强调了成本效益和高效的传销对现实世界应用的重要性。本文还概述了高级语言模型和多模态语言模型的相关工作。方法部分描述了TinyGPT-V的体系结构,包括可视编码器骨干、线性投影层和Phi-2语言模型骨干。它还讨论了使用规范化和LoRA(学习相对注意)来训练较小的语言模型。

要点:

  • TinyGPT-V是一个高效的多模态大型语言模型,需要较少的计算资源。

  • 它结合了一个小的语言骨干和预训练的视觉模块。该模型利用Phi-2语言主干和来自BLIP-2或CLIP的预训练视觉模块。

  • TinyGPT-V独特的量化过程允许在8G设备上进行本地部署和推理。具有成本效益和高效的mlm对于实际应用非常重要。

  • TinyGPT-V 训练流程

TinyGPT-V Traning Process.png

  • TinyGPT-V 模型框架

TinyGPT-V Model Structure.png

  • TinyGPT-V 效果评测

TinyGPT-V Results.png

三、讨论

  • TinyGPT-V模型在视觉问答任务中的表现如何?

TinyGPT-V模型在视觉问答任务中表现良好,与具有130亿参数的模型相比,TinyGPT-V模型在参数规模上较小,但仍然具有竞争力。在Visual Spatial Reasoning(VSR)零样本任务中,TinyGPT-V模型取得了最高的53.2%的分数,而在其他任务中,TinyGPT-V模型的表现也接近或超过其他大型模型。例如,在GQA基准测试中,TinyGPT-V模型得分为33.6%,在IconVQ挑战中得分为43.3%,在VizWiz任务中得分为24.8%,在Hateful Memes(HM)数据集中得分为53.2%。这些结果表明,TinyGPT-V模型在视觉问答任务中具有较高的性能和效率。

  • TinyGPT-V的参数规模、训练与部署资源是多少?

TinyGPT-V的参数规模为2.8亿,训练资源为24G GPU,部署资源为8G GPU或CPU。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/277480.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

爬虫学习(1)--requests模块的使用

前言 什么是爬虫 爬虫是一种自动化工具,用于从互联网或其他计算机网络上获取数据。它可以模拟人的行为,自动访问网页,提取感兴趣的数据,并将其存储到本地计算机或数据库中。爬虫通常用于搜索引擎、数据分析、信息聚合等领域&…

Spire.Office 8.12.2 for .NET

Spire.Office 8.12.2 发布。在此版本中,Spire.Doc支持Word到PCL和PostScript转换中的文本整形以及确定文档是否加密;Spire.Presentation支持将母版页转换为图像;Spire.PDFViewer支持在WinForm项目中使用Ctrl滚轮实现界面缩放效果。此外&#…

ChatGPT4.0(中文版)国内无限制免费版(附网址)

ChatGPT,由OpenAI开发的人工智能语言模型。它是你的数字对话伙伴,无论你有何问题或需要什么帮助,它都能提供有用的信息。 经过不断的研发和更新,ChatGPT的性能和功能得到了显著提升。现在,我们将重点介绍ChatGPT的两个…

Kubernetes弃用Dockershim,转向Containerd:影响及如何应对

Kubernetes1.24 版本发布时,正式宣布弃用 Dockershim,转向 Containerd 作为默认的容器运行环境。Kubernetes 以 CRI(Container Runtime Interface) 容器运行时接口制定接入准则,用户可以使用 Containerd、CRI-O、CRI- Dockerd 及其他容器运行…

Apple Unity Plugins 接入GameCenter 崩溃解决方案

目录 问题问题原因解决方案可直接使用的UnityPlugins 问题 调用 GKLocalPlayer.Local.FetchItems() 程序崩溃,报错:Thread 1: EXC_BAD_ACCESS (code257, address0x8000000000000002) 启动崩溃,报错:Library not loaded: rpath/Ap…

13. 罗马数字转整数

罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。 字符 数值 I 1 V 5 X 10 L 50 C 100 D 500 M 1000 例如&#x…

深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第三节 栈与堆,值类型与引用类型

深入浅出图解C#堆与栈 C# Heaping VS Stacking 第三节 栈与堆,值类型与引用类型 [深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第一节 理解堆与栈](https://mp.csdn.net/mdeditor/101021023)[深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第二节 栈基本工…

RFID珠宝门店智能管理设计解决方案

一、项目背景 目前,珠宝行业的盘点工作主要依靠人工操作完成,然而由于珠宝产品体积小、数量大,大数量的产品由少量营业人员花费大量时间进行盘点,这导致盘点效率低下,进而减少了珠宝店在客户营销方面的时间投入。 二、…

1.DQL查询数据(超重点)以及distinct(去重)

DQL(Data Query Language:数据查询语言) 1.所有查询操作都用 SELECT 2.无论是简单的查询还是复杂的查询它都能做 3.数据库中最核心的语言,最重要的语句 4.使用频率最高的语句 语法: SELECT 字段1,字段2,……FROM 表 有时候…

【技术揭秘】软网关BLIoTLink,轻松部署至工控机,实现协议转换网关的快速搭建!

本文教你使用钡铼提供的协议转换软件BLIoTLink ,快速搭载在ARM工控机上,变成迷你边缘计算网关。话不多说,跟着操作起来吧! 功能简介 BLIoTLink是由深圳市钡铼技术有限公司为推进工业物联网发展而研发的一款免费的嵌入式物联网协…

PC9095高性能可调限流OVP过压过流保护 软启动 抗浪涌 集成功率FET开关

特点 •输入电压范围: •PC9095A、PC9095KA:2.5伏~13.5伏 •PC9095B,PC9095KB:2.5伏~10伏 •PC9095C,PC9095KC:2.5伏~5.5伏 •28V绝对最大额定电压VOUT •带外部电阻器的可调限流器 •集成功率FET开关,53mΩRds&#xff08…

php学习05-常量

常量可以理解为值不变的量。常量值被定义后,在脚本的其他任何地方都不能改变。一个常量由英文字母、下划线和数字组成,但数字不能作为首字母出现。 在PHP中使用define()函数来定义常量,该函数的语法格式如下: define(string cons…

#define定义宏

#define的定义范围 #define不光可以定义变量,常量,还可以定义几乎所有的东西,因为#define可以定义一串代码(即宏),所以包含在代码中的东西都能被定义。 #define定义宏 定义是宏名必须于它的参数括号紧挨&am…

web自动化上传文件

1,web 自动化文件上传不要太简单 熟悉 web 自动化测试的大佬应该都懂,当采用 js 调用原生控件进行文件上传的时候,最常用的是使用 pywin32 等系统交互库。 当看到 pywin32 那丑陋的 api 封装只能爆粗口。就为了输入一个文件地址,…

再获认可,YashanDB入选工信部电子一所“2023年数字化转型自主创新解决方案优选案例”

近日,由国家工业信息安全发展研究中心(工业和信息化部电子第一研究所)主办的“数智赋能 创新领航”2023年数字化转型自主创新解决方案优选案例正式公布。深圳计算科学研究院(简称:深算院)自主研发的崖山数据…

校园安全风险管理系统

随着社会的不断发展和进步,教育行业也逐渐走向了信息化、智能化管理。校园作为教育事业的重要场所,其安全和管理问题一直备受关注。为了确保校园的安全和管理,各种校园管理平台应运而生。 其中,凡尔码搭建的校园安全管理系统为校园…

AVL树(超详解)

文章目录 前言AVL树的概念AVL树的实现定义AVL树insert 单旋左单旋右单旋左单旋代码右单旋代码 双旋左右双旋右左双旋 测试AVL树的性能 前言 AVL树是怎么来的呢? 我们知道搜索二叉树会存在退化问题,退化以后就变成单支或者接近单支。 它的效率就变成O(N)…

react 之 美团案例

1.案例展示 2.环境搭建 克隆项目到本地(内置了基础静态组件和模版) git clone http://git.itcast.cn/heimaqianduan/redux-meituan.git 安装所有依赖 npm i 启动mock服务(内置了json-server) npm run serve 启动前端服务 npm…

【React源码 - ReactDom.render发生了什么】

在React开发中,在入口文件我们都会执行ReactDom.render来讲整个应用挂载在主document中,那其中发生了什么,React是如何讲我们写的JSX代码,一步一步更新Fiber进而挂载渲染的呢。本文主要是基于react17.0.2的源码以及自己的理解来简…

linux 内核模块

linux 内核模块 1. 内核相关命令与文件内核模块存放位置查看已加载内核模块加载与卸载内核模块修改内核参数永久调整内核参数 2. 常用模块进程调度模块进程间通信模块内存管理模块文件系统模块网络接口模块 Linux 内核采用的是模块化技术,这样的设计使得系统内核可以…