BLIP和BLIP2

1.BLIP

BLIP的第一个共享是将图像文本理解与图像文本生成任务进行了统一,形成了多模态统一模型,模型在ITC任务上的效果也比CLIP更好。

1.1任务

ITC:就是CLIP中的图像文本对比学习任务

ITM:针对ITC任务中匹配不正确的样本,单独进行一个Image-Text二分类任务,使得模型对齐效果更好。因为来源于网络的弱监督文本存在噪声,会使得ITC阶段的监督出现一些错误,噪声举例:

这个二分类任务的目的是让图像和文本做到细节上的对齐。

LM:基于图像,用GPT的生成任务与生成对图像的自然语言理解。

1.2网络

上图中,最左侧的image encoder还是常见的VIT等操作。

右侧的三个模型的结构很相似,其中颜色相同的部分参数也是共享的,颜色不同的部分参数不是共享的:

其中ITC和ITM的text encoder前面加上了“CLS” 和 “encoder”关键字,代表他们是处理不同任务的编码。第一步都是Bert中的BI-SELF-ATTENTION。

LM的text前加了“decoder”标记,预测过程也是GPT中一个个step逐字生成。

1.3 数据

BLIP的另外一大贡献在于:解决了来源于网络的弱监督文本的噪声问题,并且对部分图片重新生产文本。

网络数据噪声举例:

上述数据处理方法描述:

(1)红色的T_{_{w}}代表互联网上有噪声的样本,绿色的T_{h_{}}代表人类标注的真实样本。

(2)基于预训练的模型用人类标注的样本进行ITC和ITM的finetune得到更准确的模型。用新老模型分别去做推理可以过滤掉一些图文不匹配的样本。

(3)用人类标注的数据去finetune第三个LM任务,可以为一些噪声样本生成匹配的Text。

2.BLIP-2

分两个阶段:

(1)第一阶段是训练一个桥接组件,将image的embedding对齐到LLM的embedding的text空间。

(2)第二阶段相当于将image作为一个prompt给LLM,让LLM生成对图像的描述。

2.1 Image Text表征学习

2.2 Image Text生成学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/215601.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据|计算机毕业设计——基于Django协同过滤算法的房源可视化分析推荐系统的设计与实现

大数据|计算机毕业设计——基于Django协同过滤算法的房源可视化分析推荐系统的设计与实现 技术栈:大数据爬虫/机器学习学习算法/数据分析与挖掘/大数据可视化/Django框架/Mysql数据库 本项目基于 Django框架开发的房屋可视化分析推荐系统。这个系统结合了大数据爬…

3D旋转tab图

上图 代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>3D旋转tab图</title><style>* {margin: 0;padding: 0;}body {height: 100vh;background: linear-gradient(to top, #29323c, #…

办公室状态公告系统保护涉密和高级领导办公室

天纵办公室状态公告系统通过在办公室外设置一个公告屏的方式告诉来访者办公室目前的使用状态&#xff0c;以防来访者盲目敲门影响办公室内领导的工作。主要用于高级领导办公室、涉密办公室等重要场所。 天纵办公室状态公告系统可能通过触摸电脑、平板或机械按钮等方式控制室外公…

有哪些电话销售的经验值得分享?

有哪些电话销售的经验值得分享&#xff1f; 电话销售&#xff0c;这是一项挑战与机遇并存的行业。它不仅要求你具备良好的沟通技巧和专业知识&#xff0c;更需要你有足够的耐心和热情。以下是一些值得分享的电话销售经验&#xff0c;帮助你更好地开展销售工作。 1. 精心准备。…

深度学习——第3章 Python程序设计语言(3.3 Python数据类型)

3.3 Python数据类型 目录 1. Python数值数据类型 2. Python库的导入和使用 3. Python序列数据类型 4. Python组合数据类型 计算机能处理各种类型的数据&#xff0c;包括数值、文本等&#xff0c;不同的数据属于不同的数据类型&#xff0c;有不同的存储方式&#xff0c;支持…

AndroidStudio - 新版本 Logcat 使用详解

最近这俩天正好有时间给自己做一下减法&#xff0c;忘记是去年还是今年&#xff0c;在升级 AndroidStudio 后使用 Logcat查看日志的方式也发生了一些变化&#xff0c;虽然一直在使用&#xff0c;但每当看到之前还未关闭 Logcat 命令行工具额昂也&#xff0c;就感觉可能还存在知…

广州找工作用什么软件

广州吉鹿力招聘网是一个很好的广州找工作网站&#xff0c;它提供了丰富的招聘信息&#xff0c;并且有专业的招聘团队负责筛选简历。广州吉鹿力招聘网在广州市的招聘市场上有着较高的知名度和影响力&#xff0c;用户可以通过广州吉鹿力招聘网了解最新的招聘信息&#xff0c;找到…

Android studio版本对用的gradle版本和插件版本(注意事项)

简介 Android Studio 构建系统以 Gradle 为基础&#xff0c;并且 Android Gradle 插件添加了几项专用于构建 Android 应用的功能。虽然 Android 插件通常会与 Android Studio 的更新步调保持一致&#xff0c;但插件&#xff08;以及 Gradle 系统的其余部分&#xff09;可独立于…

行业分析:2023年智能自动化药房市场现状及发展前景

医药电商是近些年的行业风口&#xff0c;尤其是随着大型互联网平台的介入和互联网医院的兴起&#xff0c;医药电商步入高速增长期。第三方交易服务平台在医药电商的销售额占比为58%&#xff0c;而到了2020年下降至40%。在终端销售额中&#xff0c;大型医院占据了59.7%的份额&am…

你不得不知道的工业镜头使用中的常见问题

镜头的基本功能就是实现光束变换&#xff08;调制&#xff09;&#xff0c;在机器视觉系统中&#xff0c;工业镜头的主要作用是将目标成像在图像传感器的光敏面上。工业镜头是机器视觉系统设计的重要环节。在实际应用过程中&#xff0c;会遇到以下常见问题。 1、Q&#xff1a;…

【EI会议征稿】第三届图像,信号处理与模式识别国际学术会议(ISPP 2024)

第三届图像&#xff0c;信号处理与模式识别国际学术会议&#xff08;ISPP 2024) 2024 3rd International Conference on Image, Signal Processing and Pattern Recognition&#xff08;ISPP 2024&#xff09; 第三届图像&#xff0c;信号处理与模式识别国际学术会议&#xf…

皮具生产ERP方案有哪些?皮具生产ERP哪个比较好

我们的生活当中有很多类型的皮具产品&#xff0c;这些商品有多样化的销售渠道&#xff0c;灵活的促销策略和价格策略&#xff0c;同时还有着复杂多样的用料、配方、生产过程等&#xff0c;而各类经营业务数据的统计分析工作却比较繁杂&#xff0c;人工录入数据容易出现错误。 …

Python使用爬虫ip爬取动态网页

写爬虫很难&#xff1f;在我看来&#xff0c;写爬虫需要具备一定的编程基础和网络知识&#xff0c;但并不需要非常高深的技术。在学习爬虫的过程中&#xff0c;我发现最重要的是掌握好两个点&#xff1a;一是如何分析网页结构&#xff0c;二是如何处理数据。对于第一个点&#…

深入理解GMP模型

1、GMP模型的设计思想 1&#xff09;、GMP模型 GMP分别代表&#xff1a; G&#xff1a;goroutine&#xff0c;Go协程&#xff0c;是参与调度与执行的最小单位M&#xff1a;machine&#xff0c;系统级线程P&#xff1a;processor&#xff0c;包含了运行goroutine的资源&#…

计算机网络安全问题分析与防护措施研究

计算机网络安全问题分析与防护措施研究 【摘要】在信息技术快速发展的今天&#xff0c;网络对于人类的生活方式影响显著增强&#xff0c;网络技术快速地在社会各个领域普及&#xff0c;使得计算机网络的安全成为一个亟待解决的问题。如何能够保证网络的快速健康发展己成为研究…

HT7183 高功率异步升压转换器 中文资料

HT7183是一款高功率异步升压转换器&#xff0c;集成120mΩ功率开关管&#xff0c;为便携式系统提供G效的小尺寸处理方案。HT7183具有2.6V至5.5V输入电压范围&#xff0c;可为各类不同供电的应用提供支持。HT7183具备3A开关电流能力&#xff0c;并且能够提供高达16V的输出电压。…

开会做笔记的时候用什么软件比较好?

在工作生涯中&#xff0c;会经历很多大大小小的会议&#xff0c;而如何快速准确记录下会议上重要的内容&#xff0c;成了很多上班族的必修课。在会上做笔记&#xff0c;选择什么样的工具才能事半功倍&#xff0c;成了一个值得深思的问题。而经过一段时间的测评后&#xff0c;我…

Spring Task 定时任务框架

Spring Task Spring Task 是Spring框架提供的任务调度工具&#xff0c;可以按照约定的时间自动执行某个代码逻辑。 定位&#xff1a;定时任务框架 作用&#xff1a;定时自动执行某段Java代码 Spring Task使用步骤 1). 导入maven坐标 spring-context&#xff08;已存在&#xff…

【Linux | 编程实践】防火墙 (网络无法访问)解决方案 Vim常用快捷键命令

&#x1f935;‍♂️ 个人主页: AI_magician &#x1f4e1;主页地址&#xff1a; 作者简介&#xff1a;CSDN内容合伙人&#xff0c;全栈领域优质创作者。 &#x1f468;‍&#x1f4bb;景愿&#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长&#xff01;&#xff01;&…

可用的镜像 yum 源

目录 ftp.sjtu.edu.cn 镜像 yum 源centos 的镜像 yum 源 mirrors.sohu.comcentos 的镜像 yum 源 mirrors.163.comcentos 的镜像 yum 源 ftp.sjtu.edu.cn 镜像 yum 源 镜像 yum 源地址 &#xff1a; http://ftp.sjtu.edu.cn/centos/ centos 的镜像 yum 源 http://ftp.sjtu.edu…