图像描述/字幕开源模型与数据集全览

图片

图像描述/字幕(Image Captioning)是用文字描述图像内容的任务,属于计算机视觉和自然语言处理的交叉领域。大多数图像描述系统采用编码器-解码器(encoder-decoder)框架,其中输入图像被编码为中间表示形式,然后解码为描述性文本序列。最受欢迎的基准测试包括nocaps和COCO,模型的性能通常通过BLEU或CIDER指标进行评估。

本篇汇总了图像描述/字幕相关开源模型与数据集,助力开发人员的研究进程,轻松获取所需算法与数据。

模型

PixelLLM

PixelLM 是一个基于大型多模态模型(LMM)的像素级推理和理解的方法。可以提供对图像上具体某个位置的详细描述,并精确指出其位置!PixelLLM 的输入可以是图像,也可以选择性地包含位置提示或文本提示。

特点如下:

  • 像素级词汇对齐(精准描述图中内容,并指出具体位置)

  • 根据文字提示描述图片中特定部分,或生成特定位置的描述

1.Pixel-Aligned Image Captioning

鼠标在图片上划过,根据划过的路径像素点,给出对应的描述。

图片

在这张图像中,可以看到一个人拿着一根胡萝卜和一只动物。背景中可以看到一个栅栏、一些树、一匹马和天空。

除此之外,还可以进行分割图片并且描述,以及密集图像字幕。

2.Referring Localization and Segmentation

图片

3.Dense Object Caption

图片

  • 参考论文:Pixel Aligned Language Models

  • 论文地址:https://arxiv.org/abs/2312.09237

  • 开源地址:https://github.com/google-research/scenic/tree/main/scenic/projects/pixel_llm

Caption-Anything

Caption Anything 是一款多功能图像处理工具,结合了 Segment Anything 的目标分割功能,视觉描述和 ChatGPT 的智能对话特性,能够对图像中的任何物体自动生成精确且多样的描述。不仅支持鼠标点击的视觉控制,还允许用户通过调整长度、情感、真实性和语言等参数来定制文本生成。

特点如下:

  • 视觉控制和语言控制用于生成文本

  • 深入探讨对象

  • 交互式演示

图片

AI解读清明上河图

  • 开源地址:https://github.com/ttengwang/Caption-Anything

bottom-up-attention

本文介绍一种结合自下而上和自上而下的视觉注意力机制,用于图像字幕和视觉问答任务。通过 FasterR-CNN 识别图像区域,结合任务上下文决定注意力权重。在 MSCOCO 图像字幕任务中取得了新纪录(CIDEr 117.9,BLEU_4 36.9),且在 2017 年 VQA 挑战赛中获得第一(总体准确率70.3%)。

图片

  • 参考论文:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering(CVPR 2018)

  • 论文地址:https://arxiv.org/abs/1707.07998

  • 开源地址:https://github.com/peteanderson80/bottom-up-attention

AoANet

图片

Attention on Attention(AoA)模块是对传统对注意力机制的扩展,用于解决无关注意力的问题。此外,通过将 AoA 应用于编码器和解码器,提出了用于图像描述的 AoANet 模型。在 MS COCO Karpathy 离线测试集上获得了 129.8 的 CIDEr-D 得分,在官方在线测试服务器上获得了 129.6 的 CIDEr-D(C40)得分,创造了新的最先进的性能。

图片

  • 参考论文:Attention on Attention for Image Captioning (ICCV 2019 Oral)

  • 论文地址:https://arxiv.org/abs/1908.06954

  • 开源地址:https://github.com/husthuaan/AoANet

数据集

Conceptual Captions

Conceptual Captions 是一个包含(图像URL,字幕)对的数据集,旨在训练和评估机器学习的图像字幕系统。对应的字幕描述是从数十亿网页中提取过滤而来,数据集规模比 MS-COCO 数据集(由Lin等人于2014年发布)扩大了整整一个数量级。更重要的是,该数据集在图像种类及描述风格上展现出了更为丰富的多样性。

CC数据集因为数据量的不同分为CC3M(约330万对图文对)以及CC12M(约1200万对图文对)两个版本。

图片

  • 参考论文:Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning

  • 论文地址:https://aclanthology.org/P18-1238.pdf

  • 下载地址:https://github.com/google-research-datasets/conceptual-captions

MS COCO Caption

MS COCO Caption 数据集以场景理解为目标,从日常生活场景中捕获图片数据,并通过人工进行标注。该数据集包含两个数据集:

  • MS COCO c5:包含的训练集、验证集合测试集图像和原始的 MS COCO 数据库一致,每个图像都带有 5 个人工生成的标注语句;

  • MS COCO c40:只包含 5000 张图片,是从 MS COCO 数据集的测试集中随机选出的。不同于 c5 的是,它的每张图像都有用 40 个人工生成的标注语句。

图片

  • 参考论文:Microsoft COCO Captions: Data Collection and Evaluation Server

  • 论文地址:https://arxiv.org/abs/1504.00325

  • 下载地址:https://github.com/tylin/coco-caption

Flickr30k

Flickr30k 数据集包含 31,783 张图像,每张图像都附带了 5 句详细的标注语句,总计 158,915 句标注。该数据集是 Flickr 8k 数据集的扩展,图像和字幕更侧重于参与日常活动和事件的人物。

图片

  • 参考论文:From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions

  • 论文地址:https://aclanthology.org/Q14-1006.pdf

  • 下载地址:https://huggingface.co/datasets/nlphuji/flickr30k

nocaps

nocaps 数据集由 4500 和 10600 张校验集和测试集图像组成,源于 Open Images object detection 数据集,并且每张图像配有 11条人工生成的标注(自动的评估10条参考描述+一条人工baseline),训练数据来自 COCO Captions2017(118K 图像包含 80 个物体类别)+Open Images V4目标检测训练集(1.7M 图像,标注了 600 个物体类别的框和 20K 类别图像标签)。

图片

  • 参考论文:nocaps: novel object captioning at scale(ICCV 2019)

  • 论文地址:https://arxiv.org/abs/1812.08658

  • 下载地址:https://nocaps.org/

IAPR TC-12

IAPR TC-12 基准的图像集合包括从世界各地拍摄的 2 万张静态自然图像,包括不同运动和动作的照片,以及人、动物、城市、风景和当代生活的许多其他方面的照片。每张图片配对了英语、德语、西班牙语三种语言的标注。

图片

  • 参考论文:The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems

  • 论文地址:http://www.thomas.deselaers.de/publications/papers/grubinger_lrec06.pdf

  • 下载地址:https://www.imageclef.org/photodata

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/945286.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

mongodb(6.0.15)安装注意事项,重装系统后数据恢复

window10系统 上周重装了系统,环境变量之类的都没有了。现在要恢复。 我电脑里之前的安装包没有删除(虽然之前也没在C盘安装,但是找不到了,所以需要重新下载安装),长下图这样。这个不是最新版本&#xff0…

Redis单线程快的原因

基于内存操作:Redis将数据存储在内存中,使得数据的读写速度极快,这是其性能优势的主要原因。单线程避免上下文切换:在多线程环境下,CPU核数有限,线程上下文切换会带来性能损耗。Redis采用单线程&#xff0c…

IOS safari 播放 mp4 遇到的坎儿

起因 事情的起因是调试 IOS 手机下播放服务器接口返回的 mp4 文件流失败。对于没调试过移动端和 Safari 的我来说着实费了些功夫,网上和AI也没有讲明白。好在最终大概理清楚了,在这里整理出来供有缘人参考。 问题 因为直接用 IOS 手机的浏览器打开页面…

import org.springframework.data.jpa.repository.JpaRepository<T, ID>;

org.springframework.data.jpa.repository.JpaRepository<T, ID> 接口中的 ID 类型参数。 理解 JpaRepository<T, ID> 中的 T 和 ID&#xff1a; T (Type): T 代表的是你想要操作的 实体类 的类型。例如&#xff0c;如果你有一个名为 User 的实体类&#xff0c;那…

Ubuntu网络配置(桥接模式, nat模式, host主机模式)

windows上安装了vmware虚拟机&#xff0c; vmware虚拟机上运行着ubuntu系统。windows与虚拟机可以通过三种方式进行通信。分别是桥接模式&#xff1b;nat模式&#xff1b;host模式 一、桥接模式 所谓桥接模式&#xff0c;也就是虚拟机与宿主机处于同一个网段&#xff0c; 宿主机…

RT-DETR融合[CVPR2020]EfficientDet中的BiFPN结构

RT-DETR使用教程&#xff1a; RT-DETR使用教程 RT-DETR改进汇总贴&#xff1a;RT-DETR更新汇总贴 《EfficientDet: Scalable and Efficient Object Detection》 一、 模块介绍 论文链接&#xff1a;https://arxiv.org/abs/1911.09070 代码链接&#xff1a;https://github.com/…

Unity 实现Canvas显示3D物体

新建一个UI相机&#xff0c;选择渲染层为UI 将主相机的渲染层去掉UI层 、 将Canvas的RenderMode设置为Screen Space - Camera,将RenderCamera设置为UI相机 新建3D物体的UI父物体&#xff0c;并将3D物体的层级设置为UI层 适当的放缩3DObjParent&#xff0c;让3D物体能显示出来…

RabbitMQ基础篇之Java客户端快速入门

文章目录 需求 项目设置与依赖管理 配置RabbitMQ的连接信息创建队列与消息发送创建消费者&#xff08;消息接收&#xff09;环境准备与操作 需求 利用控制台创建队列 simple.queue在 publisher 服务中&#xff0c;利用 SpringAMQP 直接向 simple.queue 发送消息在 consumer 服…

解决SecureCRT登录后无法用Tab键补齐命令

解决SecureCRT登录后无法用Tab键补齐命令 打开SecureCRT软件&#xff0c;选项—全局选项—常规—默认的会话设置—编辑默认的设置—连接—-右侧的协议选择为Telnet &#xff1b;在左侧&#xff0c;选择telnet&#xff0c;在右侧的高级框里“强制每次一个字符模式”勾上&#x…

音视频入门基础:MPEG2-TS专题(23)——通过FFprobe显示TS流每个packet的信息

音视频入门基础&#xff1a;MPEG2-TS专题系列文章&#xff1a; 音视频入门基础&#xff1a;MPEG2-TS专题&#xff08;1&#xff09;——MPEG2-TS官方文档下载 音视频入门基础&#xff1a;MPEG2-TS专题&#xff08;2&#xff09;——使用FFmpeg命令生成ts文件 音视频入门基础…

运行python程序报错 undefined symbol: ffi_type_uint32 的参考解决方法

文章目录 写在前面一、问题描述二、解决方法参考链接 写在前面 自己的测试环境&#xff1a; Ubuntu20.04 ROS-Noetic 一、问题描述 运行 python 程序出现如下问题&#xff1a; Traceback (most recent call last):File "<string>", line 1, in <module&…

go 模拟TCP粘包和拆包,及解决方法

1. 什么是 TCP 粘包与拆包&#xff1f; 粘包&#xff08;Sticky Packet&#xff09; 粘包是指在发送多个小的数据包时&#xff0c;接收端会将这些数据包合并成一个数据包接收。由于 TCP 是面向流的协议&#xff0c;它并不会在每次数据发送时附加边界信息。所以当多个数据包按顺…

Day10补代码随想录 理论基础|232.用栈实现队列|225.用队列实现栈|20.有效的括号|1047.删除字符串中的所有相邻重复项

栈和队列理论基础 抽象认识 栈是先进后出(FIFO)&#xff0c;队列是先进先出(LIFO) 队首(先进))队尾(后进)栈顶(后进)栈底(先进) 栈(Stack) 只在一端进行进出操作(只在一端进一端出)像个篮球框&#xff0c;取用篮球从一端进出。 /进栈 int a[1000];//足够大的栈空间 int top-1…

Gemma2 2B 模型的model.safetensors.index.json文件解析

Gemma2 2B 模型的 model.safetensors.index.json 文件解析 在使用 Gemma2 2B 模型或其他大型预训练模型时&#xff0c;model.safetensors.index.json 文件起到了索引的作用&#xff0c;它帮助我们了解模型的结构、参数存储方式以及如何加载模型的具体权重。本博客将深入解析该…

大模型系列——旋转位置编码和长度外推

绝对位置编码 旋转位置编码 论文中有个很直观的图片展示了旋转变换的过程&#xff1a; 对于“我”对应的d维向量&#xff0c; 拆分成d/2组以后&#xff0c;每组对应一个角度&#xff0c;若1对应的向量为(x1,x2)&#xff0c;应用旋转位置编码&#xff0c;相当于这个分量旋转了m…

网络安全威胁2024年中报告

下载地址&#xff1a; 网络安全威胁2024年中报告-奇安信

Momentum Contrast for Unsupervised Visual Representation Learning论文笔记

文章目录 论文地址动量队列对比学习的infoNCE loss为什么需要动量编码器对比学习moco方法中的动量Encoder为什么不能与梯度Encoder完全相同为什么动量编码器和梯度编码器不能完全相同&#xff1f;总结&#xff1a; 我理解&#xff0c;正负样本应该经过同一个encoder&#xff0c…

Unity 使用UGUI制作卷轴开启关闭效果

视频效果 代码 using UnityEngine.UI; using System.Collections; using System.Collections.Generic; using UnityEngine; using DG.Tweening; using DG.Tweening.Core; using DG.Tweening.Plugins.Options;public class JuanZhou : MonoBehaviour {[SerializeField]private …

plsql :用户system通过sysdba连接数据库--报错ora-01031

一、winR cmd通过命令窗口登录sys用户 sql sys/[password]//localhost:1521/[service_name] as sysdba二、输入用户名:sys as sysdba 三、输入密码:自己设的 四、执行grant sysdba to system; 再去PL/SQL连接就可以了

ubuntu 使用samba与windows共享文件[注意权限配置]

在Ubuntu上使用Samba服务与Windows系统共享文件&#xff0c;需要正确配置Samba服务以及相应的权限。以下是详细的步骤&#xff1a; 安装Samba 首先&#xff0c;确保你的Ubuntu系统上安装了Samba服务。 sudo apt update sudo apt install samba配置Samba 安装完成后&#xff0c…