图像描述/字幕(Image Captioning)是用文字描述图像内容的任务,属于计算机视觉和自然语言处理的交叉领域。大多数图像描述系统采用编码器-解码器(encoder-decoder)框架,其中输入图像被编码为中间表示形式,然后解码为描述性文本序列。最受欢迎的基准测试包括nocaps和COCO,模型的性能通常通过BLEU或CIDER指标进行评估。
本篇汇总了图像描述/字幕相关开源模型与数据集,助力开发人员的研究进程,轻松获取所需算法与数据。
模型
PixelLLM
PixelLM 是一个基于大型多模态模型(LMM)的像素级推理和理解的方法。可以提供对图像上具体某个位置的详细描述,并精确指出其位置!PixelLLM 的输入可以是图像,也可以选择性地包含位置提示或文本提示。
特点如下:
-
像素级词汇对齐(精准描述图中内容,并指出具体位置)
-
根据文字提示描述图片中特定部分,或生成特定位置的描述
1.Pixel-Aligned Image Captioning
鼠标在图片上划过,根据划过的路径像素点,给出对应的描述。
在这张图像中,可以看到一个人拿着一根胡萝卜和一只动物。背景中可以看到一个栅栏、一些树、一匹马和天空。
除此之外,还可以进行分割图片并且描述,以及密集图像字幕。
2.Referring Localization and Segmentation
3.Dense Object Caption
-
参考论文:Pixel Aligned Language Models
-
论文地址:https://arxiv.org/abs/2312.09237
-
开源地址:https://github.com/google-research/scenic/tree/main/scenic/projects/pixel_llm
Caption-Anything
Caption Anything 是一款多功能图像处理工具,结合了 Segment Anything 的目标分割功能,视觉描述和 ChatGPT 的智能对话特性,能够对图像中的任何物体自动生成精确且多样的描述。不仅支持鼠标点击的视觉控制,还允许用户通过调整长度、情感、真实性和语言等参数来定制文本生成。
特点如下:
-
视觉控制和语言控制用于生成文本
-
深入探讨对象
-
交互式演示
AI解读清明上河图
-
开源地址:https://github.com/ttengwang/Caption-Anything
bottom-up-attention
本文介绍一种结合自下而上和自上而下的视觉注意力机制,用于图像字幕和视觉问答任务。通过 FasterR-CNN 识别图像区域,结合任务上下文决定注意力权重。在 MSCOCO 图像字幕任务中取得了新纪录(CIDEr 117.9,BLEU_4 36.9),且在 2017 年 VQA 挑战赛中获得第一(总体准确率70.3%)。
-
参考论文:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering(CVPR 2018)
-
论文地址:https://arxiv.org/abs/1707.07998
-
开源地址:https://github.com/peteanderson80/bottom-up-attention
AoANet
Attention on Attention(AoA)模块是对传统对注意力机制的扩展,用于解决无关注意力的问题。此外,通过将 AoA 应用于编码器和解码器,提出了用于图像描述的 AoANet 模型。在 MS COCO Karpathy 离线测试集上获得了 129.8 的 CIDEr-D 得分,在官方在线测试服务器上获得了 129.6 的 CIDEr-D(C40)得分,创造了新的最先进的性能。
-
参考论文:Attention on Attention for Image Captioning (ICCV 2019 Oral)
-
论文地址:https://arxiv.org/abs/1908.06954
-
开源地址:https://github.com/husthuaan/AoANet
数据集
Conceptual Captions
Conceptual Captions 是一个包含(图像URL,字幕)对的数据集,旨在训练和评估机器学习的图像字幕系统。对应的字幕描述是从数十亿网页中提取过滤而来,数据集规模比 MS-COCO 数据集(由Lin等人于2014年发布)扩大了整整一个数量级。更重要的是,该数据集在图像种类及描述风格上展现出了更为丰富的多样性。
CC数据集因为数据量的不同分为CC3M(约330万对图文对)以及CC12M(约1200万对图文对)两个版本。
-
参考论文:Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning
-
论文地址:https://aclanthology.org/P18-1238.pdf
-
下载地址:https://github.com/google-research-datasets/conceptual-captions
MS COCO Caption
MS COCO Caption 数据集以场景理解为目标,从日常生活场景中捕获图片数据,并通过人工进行标注。该数据集包含两个数据集:
-
MS COCO c5:包含的训练集、验证集合测试集图像和原始的 MS COCO 数据库一致,每个图像都带有 5 个人工生成的标注语句;
-
MS COCO c40:只包含 5000 张图片,是从 MS COCO 数据集的测试集中随机选出的。不同于 c5 的是,它的每张图像都有用 40 个人工生成的标注语句。
-
参考论文:Microsoft COCO Captions: Data Collection and Evaluation Server
-
论文地址:https://arxiv.org/abs/1504.00325
-
下载地址:https://github.com/tylin/coco-caption
Flickr30k
Flickr30k 数据集包含 31,783 张图像,每张图像都附带了 5 句详细的标注语句,总计 158,915 句标注。该数据集是 Flickr 8k 数据集的扩展,图像和字幕更侧重于参与日常活动和事件的人物。
-
参考论文:From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions
-
论文地址:https://aclanthology.org/Q14-1006.pdf
-
下载地址:https://huggingface.co/datasets/nlphuji/flickr30k
nocaps
nocaps 数据集由 4500 和 10600 张校验集和测试集图像组成,源于 Open Images object detection 数据集,并且每张图像配有 11条人工生成的标注(自动的评估10条参考描述+一条人工baseline),训练数据来自 COCO Captions2017(118K 图像包含 80 个物体类别)+Open Images V4目标检测训练集(1.7M 图像,标注了 600 个物体类别的框和 20K 类别图像标签)。
-
参考论文:nocaps: novel object captioning at scale(ICCV 2019)
-
论文地址:https://arxiv.org/abs/1812.08658
-
下载地址:https://nocaps.org/
IAPR TC-12
IAPR TC-12 基准的图像集合包括从世界各地拍摄的 2 万张静态自然图像,包括不同运动和动作的照片,以及人、动物、城市、风景和当代生活的许多其他方面的照片。每张图片配对了英语、德语、西班牙语三种语言的标注。
-
参考论文:The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems
-
论文地址:http://www.thomas.deselaers.de/publications/papers/grubinger_lrec06.pdf
-
下载地址:https://www.imageclef.org/photodata