图像描述/字幕开源模型与数据集全览

图像描述/字幕（Image Captioning）是用文字描述图像内容的任务，属于计算机视觉和自然语言处理的交叉领域。大多数图像描述系统采用编码器-解码器（encoder-decoder）框架，其中输入图像被编码为中间表示形式，然后解码为描述性文本序列。最受欢迎的基准测试包括nocaps和COCO，模型的性能通常通过BLEU或CIDER指标进行评估。

本篇汇总了图像描述/字幕相关开源模型与数据集，助力开发人员的研究进程，轻松获取所需算法与数据。

模型

PixelLLM

PixelLM 是一个基于大型多模态模型（LMM）的像素级推理和理解的方法。可以提供对图像上具体某个位置的详细描述，并精确指出其位置！PixelLLM 的输入可以是图像，也可以选择性地包含位置提示或文本提示。

特点如下：

像素级词汇对齐（精准描述图中内容，并指出具体位置）
根据文字提示描述图片中特定部分，或生成特定位置的描述

1.Pixel-Aligned Image Captioning

鼠标在图片上划过，根据划过的路径像素点，给出对应的描述。

在这张图像中，可以看到一个人拿着一根胡萝卜和一只动物。背景中可以看到一个栅栏、一些树、一匹马和天空。

除此之外，还可以进行分割图片并且描述，以及密集图像字幕。

2.Referring Localization and Segmentation

3.Dense Object Caption

参考论文：Pixel Aligned Language Models
论文地址：https://arxiv.org/abs/2312.09237
开源地址：https://github.com/google-research/scenic/tree/main/scenic/projects/pixel_llm

Caption-Anything

Caption Anything 是一款多功能图像处理工具，结合了 Segment Anything 的目标分割功能，视觉描述和 ChatGPT 的智能对话特性，能够对图像中的任何物体自动生成精确且多样的描述。不仅支持鼠标点击的视觉控制，还允许用户通过调整长度、情感、真实性和语言等参数来定制文本生成。

特点如下：

视觉控制和语言控制用于生成文本
深入探讨对象
交互式演示

AI解读清明上河图

开源地址：https://github.com/ttengwang/Caption-Anything

bottom-up-attention

本文介绍一种结合自下而上和自上而下的视觉注意力机制，用于图像字幕和视觉问答任务。通过 FasterR-CNN 识别图像区域，结合任务上下文决定注意力权重。在 MSCOCO 图像字幕任务中取得了新纪录（CIDEr 117.9，BLEU_4 36.9），且在 2017 年 VQA 挑战赛中获得第一（总体准确率70.3%）。

参考论文：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering(CVPR 2018)
论文地址：https://arxiv.org/abs/1707.07998
开源地址：https://github.com/peteanderson80/bottom-up-attention

AoANet

Attention on Attention（AoA）模块是对传统对注意力机制的扩展，用于解决无关注意力的问题。此外，通过将 AoA 应用于编码器和解码器，提出了用于图像描述的 AoANet 模型。在 MS COCO Karpathy 离线测试集上获得了 129.8 的 CIDEr-D 得分，在官方在线测试服务器上获得了 129.6 的 CIDEr-D（C40）得分，创造了新的最先进的性能。

参考论文：Attention on Attention for Image Captioning (ICCV 2019 Oral)
论文地址：https://arxiv.org/abs/1908.06954
开源地址：https://github.com/husthuaan/AoANet

数据集

Conceptual Captions

Conceptual Captions 是一个包含（图像URL，字幕）对的数据集，旨在训练和评估机器学习的图像字幕系统。对应的字幕描述是从数十亿网页中提取过滤而来，数据集规模比 MS-COCO 数据集（由Lin等人于2014年发布）扩大了整整一个数量级。更重要的是，该数据集在图像种类及描述风格上展现出了更为丰富的多样性。

CC数据集因为数据量的不同分为CC3M（约330万对图文对）以及CC12M（约1200万对图文对）两个版本。

参考论文：Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning
论文地址：https://aclanthology.org/P18-1238.pdf
下载地址：https://github.com/google-research-datasets/conceptual-captions

MS COCO Caption

MS COCO Caption 数据集以场景理解为目标，从日常生活场景中捕获图片数据，并通过人工进行标注。该数据集包含两个数据集：

MS COCO c5：包含的训练集、验证集合测试集图像和原始的 MS COCO 数据库一致，每个图像都带有 5 个人工生成的标注语句；
MS COCO c40：只包含 5000 张图片，是从 MS COCO 数据集的测试集中随机选出的。不同于 c5 的是，它的每张图像都有用 40 个人工生成的标注语句。

参考论文：Microsoft COCO Captions: Data Collection and Evaluation Server
论文地址：https://arxiv.org/abs/1504.00325
下载地址：https://github.com/tylin/coco-caption

Flickr30k

Flickr30k 数据集包含 31,783 张图像，每张图像都附带了 5 句详细的标注语句，总计 158,915 句标注。该数据集是 Flickr 8k 数据集的扩展，图像和字幕更侧重于参与日常活动和事件的人物。

参考论文：From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions
论文地址：https://aclanthology.org/Q14-1006.pdf
下载地址：https://huggingface.co/datasets/nlphuji/flickr30k

nocaps

nocaps 数据集由 4500 和 10600 张校验集和测试集图像组成，源于 Open Images object detection 数据集，并且每张图像配有 11条人工生成的标注（自动的评估10条参考描述+一条人工baseline），训练数据来自 COCO Captions2017（118K 图像包含 80 个物体类别）+Open Images V4目标检测训练集（1.7M 图像，标注了 600 个物体类别的框和 20K 类别图像标签）。

参考论文：nocaps: novel object captioning at scale(ICCV 2019)
论文地址：https://arxiv.org/abs/1812.08658
下载地址：https://nocaps.org/

IAPR TC-12

IAPR TC-12 基准的图像集合包括从世界各地拍摄的 2 万张静态自然图像，包括不同运动和动作的照片，以及人、动物、城市、风景和当代生活的许多其他方面的照片。每张图片配对了英语、德语、西班牙语三种语言的标注。

参考论文：The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems
论文地址：http://www.thomas.deselaers.de/publications/papers/grubinger_lrec06.pdf
下载地址：https://www.imageclef.org/photodata

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/945286.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！