【LLAVA】Llava中在数据集制作过程中是怎么从CC3M中过滤出595K数据的?为什么这样做?

原文:CC3M. We extract noun-phrases using Spacy for each caption over the whole cc3m dataset, and count the frequency of each unique noun-phrase. We skip noun-phrases whose frequency is smaller than 3, as they are usually rare combinations concept and attributes that has already been covered by other captions. We then start from the noun-phrases with lowest remaining frequency, add the captions that contain this noun-phrase to the candidate pool. If the frequency of the noun-phrase is larger than 100, we randomly choose a subset of size 100 out of all its captions. This results in around 595K image-text pairs.

上面这段话是摘自LLAVA原论文。下面说明这个处理过程。

1. 请你具体讲一下他怎么做的,并解释为什么要这么做?

这段话描述了一个从CC3M数据集(一个包含约300万图像-文本对的大型数据集)中过滤和选择图像-文本对的过程,最终获得大约595K(59.5万)的图像-文本对。这个过程主要利用了自然语言处理库Spacy来识别和处理文本中的名词短语(noun-phrases)。具体步骤和原因如下:

具体步骤

  1. 提取名词短语: 利用Spacy从每个图像的文本描述(caption)中提取所有的名词短语。
  2. 计算频率: 对每一个独特的名词短语,计算它在整个数据集中出现的频率。
  3. 过滤低频名词短语: 忽略那些频率小于3的名词短语。这些通常是罕见的概念和属性组合,可能已经在其他图像的描述中被覆盖。
  4. 选择图像-文本对: 从频率最低的名词短语开始,将包含这个名词短语的所有图像-文本对加入候选池。
  5. 限制高频名词短语的选择: 如果一个名词短语的频率超过100,从包含此名词短语的所有图像-文本对中随机选择100个,而不是选择所有的。

为什么这么做

  1. 减少数据冗余: 通过忽略低频名词短语,可以避免那些可能只是偶然出现或特别罕见的图像-文本对。这有助于减少数据集中的冗余内容。
  2. 确保概念覆盖: 从频率低的名词短语开始选择,保证了数据集覆盖了较宽范围的概念,而不是仅仅聚焦于那些经常出现的主题。
  3. 控制数据集大小和质量: 通过对高频名词短语采取随机选择,可以有效控制数据集的大小,同时确保数据集中不会过度偏向于某些过于常见的概念。这样既保证了数据集的可管理性,也提高了数据集的多样性和质量。

通过这种方式,研究者能够从一个大规模的数据集中精选出一个较小但更为精致和多样化的图像-文本对子集,这对于训练高效和有效的机器学习模型非常有价值。

2. 上面“具体步骤”中第三条是什么意思?为什么说“可能已经在其他图像的描述中被覆盖”,请你举个例子说明一下

这句话的意思是,在处理CC3M数据集时,研究人员决定不考虑那些出现频率小于3次的名词短语。这样做的原因是这些名词短语往往代表非常特定或罕见的概念和属性组合,这些特定的组合可能在数据集的其他部分以不同的形式被提及或“覆盖”了。这种做法旨在减少数据集中的噪声和过度具体的信息,从而使数据集更加精简和通用。

为什么说“可能已经在其他图像的描述中被覆盖”?

“被覆盖”的含义在这里是指,尽管某个具体的名词短语可能没有直接被重复,但其代表的概念或属性可能已经通过其他更常见或更广泛的词汇在数据集中得到了表述。这样,即便忽略这些低频名词短语,它们代表的信息也不会完全丢失,因为相似或相关的概念已经通过其他方式被包含在数据集中了。

例子说明

假设在CC3M数据集中,有一个名词短语“红色的小型邮筒”,这个短语只在数据集中出现了两次,因此根据上述规则,它被认为是低频的,并且会被忽略。但是,数据集中可能还有其他描述像是“红色邮筒”或者“小型邮筒”,这些描述出现的频率较高。虽然“红色的小型邮筒”这一具体的组合被忽略了,但其包含的主要概念—即邮筒的颜色和大小—可能已经通过其他更常见的描述被覆盖。这意味着即便是在没有考虑这个具体短语的情况下,数据集依然能够代表与“红色”、“小型”和“邮筒”相关的概念。这种做法有助于保持数据集的多样性,同时避免因为过于具体的描述而造成的噪声。

补充原图。

The comparison of noun-phrase statistics before and after filtering CC3M is shown in Figure 2. The filtered dataset shows a good coverage of concepts whose frequency is higher from 3, but with a smaller number of image-text pairs.
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/479592.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[MySQL实战] 如何定义唯一约束(唯一索引)

文章目录 一、什么是唯一约束二、如何定义唯一约束2.1、建表时定义唯一约束--方法12.2、建表时定义唯一约束--方法22.3、为已创建的表定义唯一约束 三、删除唯一约束四、问题4.1、问题1:如何为多个列定义唯一约束? 五、总结 一、什么是唯一约束 唯一约束…

速通Markdown基础写法(含安装Typora)

什么是Markdown Markdown是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式来编写文档,然后转换成格式丰富的HTML页面。这种语言吸收了很多在电子邮件中已有的纯文本标记的特性。 Markdown的语法简洁明了、学习容易,而且功能比纯文…

(2024,Mamba,DiT,之字扫描与空间连续性)ZigMa:之字形 Mamba 扩散模型

ZigMa: Zigzag Mamba Diffusion Model 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 简介 2. 相关工作 3. 方法 3.1 背景:状态空间模型 3.2 扩散主干&…

Springboot开发中可能遇到的问题

SpringBoot特征: 1. SpringBoot Starter:他将常用的依赖分组进行了整合,将其合并到一个依赖中,这样就可以一次性添加到项目的Maven或Gradle构建中。 2,使编码变得简单,SpringBoot采用 JavaConfig的方式对Spring进行配置…

全网最靠谱的短网址平台,你知道几个?

在当今互联网时代,短网址平台成为了人们分享链接的常用工具。它们不仅可以将冗长的网址压缩为简洁的短链接,还能提供更多的功能和优势。在众多的短网址平台中,有几个平台以其可靠性和出色的性能脱颖而出。今天,我们就来介绍几个全…

ssh介绍

1. 什么是SSH? SSH是一种网络协议,用于计算机之间的加密登录。最早的时候,互联网通信都是明文通信,一旦被截获,内容就暴露无疑。1995年,芬兰学者Tatu Ylonen设计了SSH协议,将登录信息全部加密&…

多线程基础 -概念、创建、等待、分离、终止

文章目录 一、 线程概念1. 什么是线程2. 线程的优点3.线程的缺点4. 线程异常5. 线程用途 二、 Linux进程VS线程1. 进程和线程2. 进程和线程的地址空间3. 进程和线程的关系 三、Linux线程控制1. POSIX线程库2. 线程创建3. 线程ID及进程地址空间布局4. 线程终止5. 线程等待6. 线程…

【pcolor数据可视化】Matlab vs. Python

1、Matlab代码及结果 代码 clear;clc load(.\nclcolormap.mat)sl [0,50,100,200,500,0]; el [50,100,200,500,1000,200];for i 1:length(sl)file [..\data\static_result\VIS_Min-,num2str(sl(i)),to,num2str(el(i)),_yearly.npy];data readNPY(file);maskreadNPY(.\mas…

基于springboot的mysql实现读写分离

前言: 首先思考一个问题:在高并发的场景中,关于数据库都有哪些优化的手段?常用的有以下的实现方法:读写分离、加缓存、主从架构集群、分库分表等,在互联网应用中,大部分都是读多写少的场景,设置两个库,主库和读库,主库的职能是负责写,从库主要是负责读…

FloodFill算法——图像渲染

文章目录 题目解析题目内容解读 算法解析代码解析 题目解析 首先我们先来看看题目:图像渲染 题目内容解读 我们来解读一下题目内容这个题目的意思其实就是有一个如下图所示的二维矩阵 这个题目的意思在这类题目中也是非常标准的,就是给我们一个二维数…

yaml 语法和在线解析工具

文章目录 在线解析工具1. 简介2. 语法规则3. 数据类型3.1 数组:3.2对象:3.3 标量3.4 复合结构3.5 锚点3.5.1 单个锚点3.5.6 多个锚点 3.6 引号 参考 在线解析工具 工具1 工具2 1. 简介 Yaml是一种可读性高的数据标记语言,Yaml文件是一种配…

python基础知识(三)基本编程题,应用题

基本编程题 1.从键盘输入一个整数和一个字符,以逗号隔开,在屏慕上显示输出一条信息。 示例如下: 输入: 10, 输出: 10 s input("请输入一个整数和一个字符,用逗号隔开:")l s.split(",&q…

使用vscode调试代码

Step1:在系统中安装gdb 在Ubuntu系统下安装gdb: apt-get update apt-get install gdb 在CentOS系统下安装gdb: yum install gdb Step2:编译生成Debug版本的可执行程序 假设源文件名称为test.cpp,使用g编译器&#…

你不知道的console

console console 对象提供了浏览器控制台调试的接口,我们可以从任何全局对象中访问到它,在不同浏览器上它的工作方式可能不一样,但通常都会提供一套共性的功能。 1.console.log() 打印内容的通用方法,使用方法可以参考使用字符…

DBO优化LSBoost回归预测(matlab代码)

DBO-LSBoost回归预测matlab代码 蜣螂优化算法(Dung Beetle Optimizer, DBO)是一种新型的群智能优化算法,在2022年底提出,主要是受蜣螂的的滚球、跳舞、觅食、偷窃和繁殖行为的启发。 数据为Excel股票预测数据。 数据集划分为训练集、验证集、测试集,比…

【系统架构师】-计算机网络

1、网络的划分 网络性能指标:速率、带宽(频带宽度或传送线路速率)、吞吐量、时延、往返时间、利用率。 网络非性能指标:费用、质量、标准化、可靠性、可扩展性、可升级性、易管理性和可维护性。 总线型(利用率低、干扰大、价格低)、 星型(交换机转发形…

【Linux】系统开启和关闭过程

Linux 系统启动过程 BIOS 自检:在计算机开机时,BIOS 会进行自检,检查硬件设备是否正常。 加载引导程序:BIOS 自检完成后,会加载引导程序,如 GRUB、LILO 等。引导程序会加载内核和初始化 RAM 磁盘&#xff…

数据结构:详解【栈和队列】的实现

目录 1. 栈1.1 栈的概念及结构1.2 栈的实现1.3 栈的功能1.4 栈的功能的实现1.5 完整代码 2. 队列2.1 队列的概念及结构2.2 队列的实现2.3 队列的功能2.4 队列的功能的实现2.5 完整代码 1. 栈 1.1 栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的…

如何看待腾讯 QQ 浏览器抄袭 Arc

今天在 Reddit 的帖子上看到,QQ 浏览器抄袭了 Arc 而且还是 Arc 官方发布的 It looks very similar lol 看起来也太像了,笑死我了 稍微震惊了一下,带着疑惑,打开了 QQ 浏览器官网页 点击下载 ⬇️ 下载后打开 翻找了下&#xff0…

2004-2022年各省化学需氧量数据(无缺失)

2004-2022年各省化学需氧量数据(无缺失) 1、2004-2022年 2、范围:31省 3、指标:化学需氧量 4、来源:各省年鉴、国家统计局、环境年鉴 5、指标解释:化学需氧量(COD)排放量指工业废水中COD排放量与生活污…