多模态大模型MLLM VIT CLIP BLIP

多模态大模型MLLM VIT CLIP BLIP

article2024/12/26 9:46:47/文章来源:https://blog.csdn.net/weixin_40929413/article/details/138483461

一、Vit模型介绍

Vit（Vision Transformer）即将Transformer应用于视觉领域。

Transformer输入输出都是一个序列，若需要应用于视觉领域，则需要考虑如何将一个2d图片转化为一个1d的序列，最直观的想法将图片中的像素点输入到transformer中，模型训练中图片的大小是224*224=50176，而正常的bert的序列长度是512，复杂度太高。

1.Vit在输入序列长度的改进

（1）使用网络中间的特征图

用res50最后一个stage res4的feature map size只有14*14=196，序列长度是满足预期的

（2）孤立自注意力

使用local window而不是整张图，输入的序列长度可以由windows size来控制

（3）轴自注意力

将在2d图片上的自注意力操作改为分别在图片的该和宽两个维度上做self-attention，可以大大降低复杂度，但是由于目前硬件没有对这种操作做加速，很难支持大规模的数据量级。

当拥有足够多的数据进行预训练的时候，ViT的表现就会超过CNN，突破transformer缺少归纳偏置的限制，可以在下游任务中获得较好的迁移效果。

2.Vit的缺点

（1）如果出现了一张图，其中包含模型从来没见过的类别，那么模型就不能输出正确的结果

（2）如果输入数据出现了分布偏移，那么模型可能也无法输出正确的结果

二、CLIP模型介绍

CLIP（Contrastive Language-Image Pre-training）由两个主体部分组成：Text Encoder和Image Encode——文本和图像的特征提取器。

CLIP预训练方法：对比学习

三、Vision-Language Model模型介绍

预训练阶段（PreTraining）：通常是为了实现视觉特征与文本特征的堆砌，有些模型的这一阶段也会分为两个子阶段，比如针对弱标签数据训练和人工标注训练，或者在训练中增加图片分辨率等
微调阶段（Finetune）：此阶段通常是使用指令或特定任务数据进行微调，以增强模型遵循指令能力和对话能力等，有些也会分为两个子阶段

四、Flamingo

Flamingo：a Visual Language Model for Few-Shot Learning

五、BLIP模型介绍

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/606838.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Logit Standardization in Knowledge Distillation 知识蒸馏中的logit标准化

Logit Standardization in Knowledge Distillation 知识蒸馏中的logit标准化

摘要知识蒸馏涉及使用基于共享温度的softmax函数将软标签从教师转移到学生。然而，教师和学生之间共享温度的假设意味着他们的logits在logit范围和方差方面必须精确匹配。这种副作用限制了学生的表现，考虑到他们之间的能力差异，以及教师天生…

阅读更多...

旺店通·企业奇门和金蝶云星空单据接口对接

旺店通·企业奇门和金蝶云星空单据接口对接

旺店通企业奇门和金蝶云星空单据接口对接源系统:金蝶云星空金蝶K/3Cloud（金蝶云星空）是移动互联网时代的新型ERP，是基于WEB2.0与云技术的新时代企业管理服务平台。金蝶K/3Cloud围绕着“生态、人人、体验”，旨在帮助企业打造面向…

阅读更多...

Web3 ETF软件开发

Web3 ETF软件开发

开发Web3 ETF软件涉及到金融、法律和技术等多个领域的专业知识，因此存在以下技术难点，开发Web3 ETF软件是一项复杂的技术挑战，需要综合考虑各种因素。开发人员需要具备较强的技术能力和跨学科知识才能成功开发Web3 ETF软件。北京木奇移动技术…

阅读更多...

$解决$‘\r‘: command not found 或syntax error near unexpected token `$‘\r‘的四个方法$

解决$‘\r‘: command not found 或syntax error near unexpected token `$‘\r‘的四个方法

问题原因： 两个报错原因都是Linux和windows下的回车换行符不兼容解决方法： 方法一：在windows系统可以用文本编辑器查看所有字符，例如notepad，编辑->档案格式转换->转换为UNIX格式方法二：在Linux系…

阅读更多...

uniapp读取项目本地文件/json文件/txt文件

uniapp读取项目本地文件/json文件/txt文件

uniapp读取项目本地文件/json文件/txt文件文件必须放在static目录下方法： /*** 访问static里面的文件* param url 文件路径必须在static目录下*/ function localFetch(url) {return new Promise((resolve, reject) > {plus.io.resolveLocalFileSystemURL(_ww…

阅读更多...

【LeetCode】链表oj专题

【LeetCode】链表oj专题

前言经过前面的学习，咋们已经学完了链表相关知识，这时候不妨来几道链表算法题来巩固一下吧！ 如果有不懂的可翻阅之前文章哦！ 个人主页：小八哥向前冲~-CSDN博客数据结构专栏：数据结构【c语言版】_小八哥…

阅读更多...

HCIP-Datacom-ARST必选题库_OSPF【道题】

HCIP-Datacom-ARST必选题库_OSPF【道题】

某工程师利用2台路由器进行IPv6测试，他想要通过运行OSPFv3实现IPv6网络的互联互通。关于R1需要进行的OSPPv3相关配置，正确的有? [R1] router id 10.1.1.1A [R1-Giqabi tEthernet0/0/1] ospfv3 1 area 0 [R1-ospfv3-11 router-id 10.1.1.1 [R1-ospfv3…

阅读更多...

AcWing 835：Trie字符串统计 ← 字典树（Trie树）模板题

AcWing 835：Trie字符串统计 ← 字典树（Trie树）模板题

【题目来源】https://www.acwing.com/problem/content/837/【题目描述】维护一个字符串集合，支持两种操作： ● I x 向集合中插入一个字符串 x； ● Q x 询问一个字符串在集合中出现了多少次。共有 N 个操作，所有输入的字符…

阅读更多...

【JAVA】类加载过程，以及类加载器

【JAVA】类加载过程，以及类加载器

类加载过程，以及类加载器一、类加载的过程二、类加载器介绍三、跨类加载三、举例说明一、类加载的过程类加载是Java虚拟机（JVM）将类文件加载到内存中并转换成对应的类对象的过程。它确保了类文件能够正确加载并转换成可执行的类对象&…

阅读更多...

SpringSecurity源码分析（RemeberMe）

SpringSecurity源码分析（RemeberMe）

RememberMeServices RememberMeServices 记住我的服务的接口可以重写实现自己的记住我 public interface RememberMeServices { //建议 org. springframework. security. authentication. RememberMeAuthenticationToken 在大多数情况下使用它，因为它具有相应的身份…

阅读更多...

如何在您的WordPress网站上安装和设置Yoast seo？

如何在您的WordPress网站上安装和设置Yoast seo？

本周有一个客户，购买Hostease的虚拟主机，询问我们的在线客服，如何在您的WordPress网站上安装和设置Yoast seo?我们为用户提供相关教程，用户很快解决了遇到的问题。在此，我们分享这个操作教程，希望可以对您…

阅读更多...

如何利用AI技术提升内容生产的效率和质量

如何利用AI技术提升内容生产的效率和质量

目录前言1 自动化内容生成1.1 文章生成1.2 视频制作1.3 音频合成 2 内容分发与推广2.1 智能内容推荐2.2 社交媒体管理 3 内容分析与优化3.1 用户反馈分析3.2 内容效果评估结语前言在当今数字化时代，人工智能（AI）技术对内容生产、分发和优…

阅读更多...

Linux：进程通信（三）信号的捕捉

Linux：进程通信（三）信号的捕捉

目录一、信号捕捉函数 1、signal函数 2、sigaction函数二、用户态与内核态 1、用户态 2、内核态用户态与内核态转换三、volatile关键字四、SIGCHLD信号一、信号捕捉函数 1、signal函数 signal函数是C语言标准库中的一个函数，用于处理Unix/Linux系…

阅读更多...

数据结构——二叉排序树

数据结构——二叉排序树

懒猫老师-数据结构-(58)二叉排序树的删除(二叉查找树)_哔哩哔哩_bilibili 概念 (1)若它的左子树不空，则左子树上所有结点的值均小于根结点的值; (2)若它的右子树不空，则右子树上所有结点的值均大于根结点的值; (3)它的左右子树也都是二叉排序树。通…

阅读更多...

顶级开源Kubernetes管理工具有哪些？好用Kubernetes工具推荐

Kubernetes已经成为容器编排领域颠覆性的技术，而充满活力的开源社区是其成功背后的推动力。本文将为大家推荐好用的Kubernetes工具，围绕Kubernetes发展的生态系统的广度和深度。从自动化和监控到网络和安全性，这些工具为管理容器化应用程序…

阅读更多...

Python入门到精通，一个月就够了！前字节大佬超详细系统学习路线

Python入门到精通，一个月就够了！前字节大佬超详细系统学习路线

毫无疑问，Python 是当下最火的编程语言之一。对于许多未曾涉足计算机编程的领域「小白」来说，深入地掌握 Python 看似是一件十分困难的事。感觉很迷茫？学了一段时间还是不入流？很大一部分原因是因为你没有一个完整的知识体系&…

阅读更多...

WebSocket 来单提醒和客户催单功能

WebSocket 来单提醒和客户催单功能

一：WebSocket ： WebSocket 是基于 TCP 的一种新的网络协议。它实现了浏览器与服务器全双工通信——浏览器和服务器只需要完成一次握手，两者之间就可以创建持久性的连接， 并进行双向数据传输。 HTTP协议和WebSocket协议对比&#…

阅读更多...

c 双向链表

c 双向链表

图片 #include <stdio.h> #include <stdlib.h> #include <string.h>int main(void){ struct film{char name[20];int id;struct film *pre; //前向指针struct film *next; //后向指针 };struct film *headNULL;struct film *ls,*lspre,*work;in…

阅读更多...

《幻兽帕鲁》怎么建立服务器，一文学会

《幻兽帕鲁》怎么建立服务器，一文学会

你是否厌倦了《幻兽帕鲁》游戏中的公共服务器，想要与好友们共同打造一个专属的游戏世界？本文将为你提供一份极简的服务器搭建指南，让你仅需轻点三次鼠标，3秒轻松开服，与朋友们一同开启“抓帕鲁”的冒险之旅&#xff01…

阅读更多...

挖掘线下潜力：Xinstall为App推广开辟新渠道

挖掘线下潜力：Xinstall为App推广开辟新渠道

在移动互联网时代，App的推广成为了企业营销的重要环节。然而，线上推广渠道日益拥堵，成本不断攀升，让许多开发者开始寻找线下推广的新机会。此时，Xinstall作为国内专业的App全渠道统计服务商，为开发者提供了…

阅读更多...

最新文章