PromptGIP:Unifying lmage Processing as Visual Prompting Question Answering

“Unifying Image Processing as Visual Prompting Question Answering” 文章提出了一种名为 PromptGIP 的通用模型,将图像处理任务统一为视觉提示问答范式,在多个图像处理任务上展现出良好性能,为通用图像处理提供了新的思路和方法。

在这里插入图片描述

conference:2024 ICLR
paper:https://arxiv.org/pdf/2310.10513v2
code:https://github.com/lyh-18/PromptGIP

文章目录

  • 1. 研究背景与目的
    • 1.1 图像处理任务的重要性与传统方法的局限
    • 1.2 大模型发展趋势与视觉领域的探索
    • 1.3 研究目的
  • 2. 研究方法
    • 2.1 图像作为视觉问答
    • 2.2 掩码视觉提示范式
  • 3. 实验设置与结果分析
    • 3.1 实验任务设置
    • 3.2 实验细节
    • 3.3 实验结果分析
  • 4. 研究结论与展望
    • 4.1 研究结论
    • 4.2 研究局限与展望

1. 研究背景与目的

1.1 图像处理任务的重要性与传统方法的局限

图像处理涵盖图像恢复、增强、特征提取等,是计算机视觉基础任务,用于提升图像质量和提取特征。传统方法需针对不同任务开发特定模型,如SRCNN用于超分辨率、DnCNN用于去噪等,但泛化能力有限。目前的 All-in-one 恢复方法虽能处理多种恢复任务,但在生成替代表示(如风格化图像或图像边缘)方面存在不足。

1.2 大模型发展趋势与视觉领域的探索

大模型在自然语言处理领域成功统一多种任务,计算机视觉领域也有类似趋势,如Meta AI的SAM用于图像分割,通过大规模预训练实现零样本泛化。然而,当前大模型多关注高级视觉任务,低级视觉任务受关注较少。

1.3 研究目的

提出PromptGIP模型,统一多种图像处理任务,包括图像恢复、增强、特征提取等,采用视觉提示问答范式,处理不同输出域任务,探索模型泛化能力,为通用图像处理提供新方法。

2. 研究方法

2.1 图像作为视觉问答

受NLP提示学习启发,将图像处理统一为视觉提示问答范式。模型推理时,依据输入输出图像对(作为任务提示)处理新输入图像生成预测输出。例如,输入“雨天 - 无雨”图像对提示,模型对目标输入图像执行去雨操作;若提示答案与图像边缘相关,模型对查询图像进行边缘检测。
在这里插入图片描述

2.2 掩码视觉提示范式

采用掩码自动编码方法(MAE),训练时对答案图像随机掩码,促使模型从无掩码部分重建。模型训练于包含不同图像处理目标(如恢复、增强、边缘检测)的数据集,推理时根据输入输出对执行相应操作。
在这里插入图片描述

3. 实验设置与结果分析

3.1 实验任务设置

实验包含15种图像处理任务,分为三类:

  • 图像恢复任务(10种):包括高斯噪声、高斯模糊、泊松噪声、椒盐噪声、JPEG压缩、振铃伪影、R - L算法、图像修复、雾霾、雨等类型的处理。针对前八种通过对ImageNet数据集引入失真创建退化 - 干净图像对,去雾利用RESIDE数据集的ITS训练集,去雨采用两种雨添加模型(Simple Rain Model和Complex Rain Model),并使用多个常用数据集组成Common528数据集用于测试。
  • 图像增强任务(2种):低光图像增强(LLE)采用LOL数据集训练,局部拉普拉斯滤波(LLF)通过对Adobe - MIT Fivek数据集的expert - C修饰图像应用局部拉普拉斯滤波器形成输入输出对,LLF用于边缘保留细节增强。
  • 图像边缘检测任务(2种):使用Canny和Laplacian算子,基于ImageNet数据集创建输入输出训练对。

3.2 实验细节

采用ViT - large作为骨干架构。在训练期间,模型以“Q - A - Q - A”模式处理四个256×256图像的序列,从而得到4×256×256的总输入分辨率。使用L1损失作为损失函数。在优化方面,采用带有余弦退火学习率调度器的AdamW优化器。基础学习率为1e - 4。批量大小为48。使用8个8TeslaV100GPUs进行训练。总共执行50个轮次。对于测试Painter和PromptGIP,为每个任务构建20个图像提示取最佳结果

3.3 实验结果分析

  • 任务处理能力与视觉效果:PromptGIP能有效处理多种图像处理任务,视觉效果良好(如图5、6所示)。在图像恢复任务上表现出色,定量得分优于Real - ESRGAN等模型(如表1所示)。

在这里插入图片描述

  • QA范式和掩码训练策略有效性:QA范式改进了模型性能,掩码训练策略增强了模型处理不同任务的能力及稳定性。如在图像去雾任务中,直接预测效果不佳,而掩码训练策略有效(如表3所示)。
    在这里插入图片描述

  • 分布外任务泛化能力:模型在分布外任务(如混合退化恢复、颜色化、风格转移)上有一定泛化能力,但存在局限性,如无法完美处理未见过的混合退化图像和颜色化任务(如图8所示)。

4. 研究结论与展望

4.1 研究结论

PromptGIP模型可处理多种图像处理任务,通过视觉提示问答范式能解释任务线索并生成相关输出,具有一定泛化性。

4.2 研究局限与展望

模型在生成新兴结果方面能力有限,训练数据的质量、多样性和数量可能影响性能。当前骨干网络ViT在处理低级视觉任务时存在高频信息丢失问题,导致结果不理想,未来可采用更强的骨干模型提升性能,进一步探索模型在通用图像处理中的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/941022.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Windows服务器修复SSL/TLS协议信息泄露漏洞等...

为了保证生产环境的安全, 我们会定期对服务器进行漏洞扫描, 一般情况下我们都是使用Linux服务器, 某些情况会用到Windows服务器 出现SSL/TLS协议信息泄露漏洞问题一般情况下是远程连接使用了不安全的加密算法, 需要禁用这些加密算法 修复方法 从网络中查询修复方法又很多, 大…

基于AT89C52单片机的6位电子密码锁设计

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/90166684?spm1001.2014.3001.5503 14 部分参考设计如下: 目 录 摘要 1 abstract 2 1 绪论 3 1.1 课题背景 3 1.2 课题的目的和意义 3 1.3 电子密码…

考前倒计时98天

2024年12月21日到2025年3月29日共有 98​ 天 一、计算机基础 思维分类特征强调学科代表理论思维(推理思维)推理和演绎推理数学实验思维(证实思维)观察和总结自然规律归纳物理学计算思维(构造思维)设计和构造…

力扣-图论-70【算法学习day.70】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向和记录学习过程(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非…

最新详细Gmail 注册指南以及注册谷歌账号手机号码无法验证?解决方法分享

Gmail 注册指南:2024 年实用教程,解决手机号验证难题,开启你的数字之旅 在当今信息时代,Gmail 邮箱已成为我们工作与生活中常用的数字工具,它不仅功能强大、界面简洁,还是访问 Google 服务(如 …

【已解决】黑马点评项目jmeter高并发测试中用户数据的生成

具体实现见此篇文章的第3章 运行 test 程序后,生成以下用户名 以下文件名改成自己的地址 成功

范德蒙矩阵(Vandermonde 矩阵)简介:意义、用途及编程应用

参考: Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares Stephen Boyd and Lieven Vandenberghe 书的网站: https://web.stanford.edu/~boyd/vmls/ Vandermonde 矩阵简介:意义、用途及编程应用 在数学和计算科学中&a…

数智化医院分布式计算框架融合人工智能方向初步实现与能力转换浅析

人工智能中心计算机 一、引言 1.1 研究背景与意义 近年来,人工智能(Artificial Intelligence,AI)与大数据技术的迅猛发展为医疗行业带来了前所未有的变革机遇。医疗领域积累了海量的数据,如电子病历(Electronic Medical Record,EMR)、医学影像、临床检验数据以及基因…

深度学习之超分辨率算法——SRGAN

更新版本 实现了生成对抗网络在超分辨率上的使用 更新了损失函数,增加先验函数 SRresnet实现 import torch import torchvision from torch import nnclass ConvBlock(nn.Module):def __init__(self, kernel_size3, stride1, n_inchannels64):super(ConvBlock…

Pytorch | 利用PI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击

Pytorch | 利用PI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集PI-FGSM介绍背景和动机算法原理算法流程 PI-FGSM代码实现PI-FGSM算法实现攻击效果 代码汇总pifgsm.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器: Pytorch | 从零构建AlexN…

IMX6ULL开发板如何关掉自带的QT的GUI界面和poky的界面的方法

重要说明:其实最后发现根本没必要去关掉自带的QT的GUI界面,直接把屏幕先刷黑就可以看到测试效果了,把屏蔽先刷黑的代码见博文: https://blog.csdn.net/wenhao_ir/article/details/144594705 不过,既然花了时间摸索如何…

【网络安全】逆向工程 练习示例

1. 逆向工程简介 逆向工程 (RE) 是将某物分解以了解其功能的过程。在网络安全中,逆向工程用于分析应用程序(二进制文件)的运行方式。这可用于确定应用程序是否是恶意的或是否存在任何安全漏洞。 例如,网络安全分析师对攻击者分发…

Docker Compose 安装 Harbor

我使用的系统是rocky Linux 9 1. 准备环境 确保你的系统已经安装了以下工具: DockerDocker ComposeOpenSSL(用于生成证书)#如果不需要通过https连接的可以不设置 1.1 安装 Docker 如果尚未安装 Docker,可以参考以下命令安装&…

深入浅出:多功能 Copilot 智能助手如何借助 LLM 实现精准意图识别

阅读原文 1. Copilot中的意图识别 如果要搭建一个 Copilot 智能助手,比如支持 知识问答、数据分析、智能托管、AIGC 等众多场景或能力,那么最核心的就是基于LLM进行意图识别分发能力,意图识别的准确率直接决定了 Copilot 智能助手的能力上限…

ZED-OpenCV项目运行记录

项目地址:GitCode - 全球开发者的开源社区,开源代码托管平台 使用 ZED 立体相机与 OpenCV 进行图像处理和深度感知 • 使用 ZED 相机和 OpenCV 库捕获图像、深度图和点云。 • 提供保存并排图像、深度图和点云的功能。 • 允许在不同格式之间切换保存的深度图和点云…

Linux 常见用例汇总

注:本文为 Linux 常见用例文章合辑。 部分内容已过时,未更新整理。 检查 Linux 上的 glibc 版本 译者:joeren | 2014-11-27 21:33 问:检查 Linux 系统上的 GNU C 库(glibc)的版本? GNU C 库&…

PHP阶段一

PHP 一门编程语言 运行在服务器端 专门用户开发网站的 脚本后缀名.php 与HTML语言进行混编,脚本后缀依然是.php 解释型语言,不要编译直接运行 PHP运行需要环境: Windows phpstudy Linux 单独安装 Web 原理简述 1、打开浏览器 2、输入u…

REMOTE_LISTENER引发的血案

作者:Digital Observer(施嘉伟) Oracle ACE Pro: Database PostgreSQL ACE Partner 11年数据库行业经验,现主要从事数据库服务工作 拥有Oracle OCM、DB2 10.1 Fundamentals、MySQL 8.0 OCP、WebLogic 12c OCA、KCP、PCTP、PCSD、P…

Redis篇--常见问题篇6--缓存一致性1(Mysql和Redis缓存一致,更新数据库删除缓存策略)

1、概述 在使用Redis作为MySQL的缓存层时,缓存一致性问题是指Redis中的缓存数据与MySQL数据库中的实际数据不一致的情况。这可能会导致读取到过期或错误的数据,从而影响系统的正确性和用户体验。 为了减轻数据库的压力,通常读操作都是先读缓…

Phono3py hdf5文件数据读取与处理

Phono3py是一个主要用python写的声子-声子相互作用相关性质的模拟包,可以基于有限位移算法实现三阶力常数和晶格热导率的计算过程,同时输出包括声速,格林奈森常数,声子寿命和累积晶格热导率等参量。 相关介绍和安装请参考往期推荐…