Activating More Pixels in Image Super-Resolution Transformer

  • cvpr2023
  • https://github.com/XPixelGroup/HAT?tab=readme-ov-file
  • 问题引入:
    – 现在的transformer based的SR模型“感受野”不够;
    – 分析:原本认为transformer-based的方法优于CNN-based的方法是因为可以利用更加long-range的信息,但是作者通过LAM分析得到SwinIR方法并没有使用更多的long-range信息,其表现更好的原因是因为能够更好的建模局部信息,所以需要扩展“感受野”;此外还发现中间特征具有块效应,这说明shift window mechanism不能很好的实现cross-window information interaction;
  • 本文方法:
    – 对应“感受野”问题:Hybrid Attention Transformer (HAT): 综合使用channel attention & window-based self attention;
    – 对应跨窗口信息交互,块效应问题:overlapping cross-attention module: 加强相邻window feature之间的交互;
    – 预训练:同任务预训练策略,使用大规模数据集对同一任务进行预训练;
    在这里插入图片描述
  • 网络结构
    – shallow feature extraction + deep feature extraction + image reconstruction
    I L R ∈ R H × W × C i n → s h a l l o w   f e a t u r e   e x t r a c t i o n c o n v × 1 F 0 ∈ R H × W × C → d e e p   f e a t u r e   e x t r a c t i o n r e s i d u a l   h y b r i d   a t t e n t i o n   g r o u p s ( R H A G ) × n + c o n v × 1 F D ∈ R H × W × C + F 0 → r e c o n s t r u c t i o n   m o d u l e I H R \mathcal{I}_{LR}\in \mathcal{R}^{H\times W\times C_{in}} \xrightarrow[shallow\ feature\ extraction]{conv\times 1} F_0\in \mathcal{R}^{H\times W\times C} \xrightarrow[deep\ feature\ extraction]{residual\ hybrid\ attention\ groups(RHAG)\times n + conv \times 1} F_D\in\mathcal{R}^{H\times W\times C} + F_0\xrightarrow[reconstruction\ module]{} \mathcal{I}_{HR} ILRRH×W×Cinconv×1 shallow feature extractionF0RH×W×Cresidual hybrid attention groups(RHAG)×n+conv×1 deep feature extractionFDRH×W×C+F0 reconstruction moduleIHR
    – reconstruction module的pixel shuffle是用来上采样用的;
    – RHAG由HAB和OCAB组成
    – HAB:
    X N = L N ( X ) X M = ( S ) W − M S A ( X N ) + α C A B ( X N ) + X Y = M L P ( L N ( X M ) ) + X M X_N = LN(X) \\ X_M = (S)W-MSA(X_N)+\alpha CAB(X_N)+X \\ Y = MLP(LN(X_M)) + X_M XN=LN(X)XM=(S)WMSA(XN)+αCAB(XN)+XY=MLP(LN(XM))+XM
    – W_MSA:window-based multihead self attention: 首先将输入分为 M × M M\times M M×M个window,之后每个window中进行self attention,还每隔一段时间使用shift window partition approach;
    – CAB是首先一个卷积,将通道数降为原来的 1 β \frac{1}{\beta} β1,再一个conv恢复到原来的通道数,之后是一个channel attention模块;
    – Overlapping Cross-Attention Block (OCAB)
    在这里插入图片描述
  • 实验:
    – 预训练:ImageNet
    – training: DIV2K+Flicker2K

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/594694.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySql数据库(概念篇)

数据库概念 什么是数据库 数据库见名之意,就是用来存储数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 没接触数据库之前,一般都是将数据存储在文件中。比如execl文件,word文件中。但是…

基于 Dockerfile 部署 LNMP 架构

目录 前言 1、任务要求 2、Nginx 镜像创建 2.1 建立工作目录并上传相关安装包 2.2 编写 Nginx Dockerfile 脚本 2.3 准备 nginx.conf 配置文件 2.4 生成镜像 2.5 创建 Nginx 镜像的容器 2.6 验证nginx 3、Mysql 镜像创建 3.1 建立工作目录并上传相关安装包 3.2 编写…

flink sql 优化

文章目录 一、参数方面二、资源方面三、总结 提示:实时flink sql 参考很多网上方法与自己实践方法汇总(版本:flink1.13) 一、参数方面 flink sql参数配置 //关闭详细算子链(默认为true),true后job性能会略微有提升。false则可以展示更详细的DAG图方便地位性能结点…

4. HBuilderX中的插件商城

前言 在HBuilderX中有一个插件市场,这个和VSCode的插件库不太像,硬要做个简单类比的话,个人认为HBuilderX中的插件市场更像是npm库,它里面有许多其他开发者开发的插件,这些插件更多的是为uniapp服务的,比如…

第23章 微内核架构软件测试(下午题)

一、微内核架构概述 (一)概念 1、微内核架构 微内核:精简的内核 宏内核:中央集权控制中心 核心系统 能运行的最小模块插件模块 专业处理,额外特性的独立组件增加/扩展核心系统的业务逻辑能力连接方式 OSGI、消息机…

springAI框架学习总结

springAI 1.springAI基本介绍 springAI是一个AI工程应用框架,其目标是将 Spring 生态系统设计原则(例如可移植性和模块化设计)应用于 AI 领域,并推广使用 POJO 作为 AI 领域应用程序的构建块。 2.特性 灵活的AIP支持chat,text…

WPF之绑定属性值转换

1&#xff0c;使用Binding.Format属性简易设置绑定的属性数据显示格式。 <TextBox Grid.Row"2" Grid.Column"1"><TextBox.Text><Binding Path"UnitCost" StringFormat"{}{0:C3}" > …

[论文笔记]Longformer: The Long-Document Transformer

引言 今天带来论文Longformer: The Long-Document Transformer的笔记。 基于Transformer的模型由于其自注意力操作而无法处理长序列&#xff0c;该操作随着序列长度呈二次扩展。为了解决这一限制&#xff0c;本篇工作提出了Longformer&#xff0c;其注意力机制随着序列长度呈…

Edge扩展应用程序的上架流程

前言 在软件开发的生命周期中&#xff0c;发布流程是将产品推向市场并交付给用户的关键阶段。它不仅标志着一个项目从开发阶段到用户手中的转变&#xff0c;也是确保软件质量和用户体验的重要环节。那么一个清晰、高效且可重复的发布流程对于任何软件项目的成功至关重要&#…

CMakeLists.txt语法规则:提供信息的变量说明一

一. 简介 前面几篇文章学习了 CMakeLists.txt语法中 部分常用命令。 接下来学习CMakeLists.txt语法中部分常用变量&#xff0c;变量也是 cmake 中的一个重头戏&#xff0c;cmake 提供了很多内置变量。每一个变量都有它自己的含义&#xff0c;可以通过如下链接地址查询到所有…

环保设备在线监控系统

随着环保意识的日益提升&#xff0c;对环境污染的监控与管理成为了我们不可忽视的重要任务。在这个背景下&#xff0c;HiWoo Cloud平台凭借其强大的环保设备在线监控系统&#xff0c;为环保事业注入了新的活力&#xff0c;助力我们共同迈向绿色未来。 一、环保设备在线监控系统…

jsPDF + html2canvas + Vue3 + ts项目内,分页导出当前页面为PDF、A 页面内导出 B 页面的内容为PDF,隐藏导出按钮等多余元素

jsPDF html2canvas Vue3 ts Arco Design项目&#xff0c;分页导出当前页面为PDF、A 页面内导出 B 页面的内容为PDF&#xff0c;隐藏导出按钮等多余元素… 1.下载所需依赖 pnpm install --save html2canvaspnpm install --save jspdf引入依赖 <script setup lang"…

JavaScript —— APIs(五)

一、Window对象 1. BOM&#xff08;浏览器对象模型&#xff09; 2. 定时器-延时函数 ①、定义 ②、定时器比较 ③、【案例】 3. JS执行机制 4. location对象 注意&#xff1a;hash应用 不点击页面刷新号&#xff0c;点击刷新按钮也可以实现页面刷新 【案例】 5. navig…

WAF防火墙可以给您解决什么问题?哪些情况下使用WAF最适合?

一、什么是WAF&#xff1f; Web应用防护系统&#xff08;也称为&#xff1a;网站应用级入侵防御系统。英文&#xff1a;Web Application Firewall&#xff0c;简称&#xff1a;WAF&#xff09;。利用国际上公认的一种说法&#xff1a;Web应用防火墙是通过执行一系列针对HTTP/H…

Occlum原理解析及使用说明

目录 一、设计初衷 二、背景知识 1.什么是可信计算 2.什么是TEE 3.传统SGX SDK的问题 三、Occlum 1.如何使用 2.特点 3.如何使用 1.Docker部署 1 硬件支持 2 环境 3 拉取镜像创建虚机 4 简单验证 4.Occlum中gcc编译 1 交叉编译 2 初始化Occlum实例 3 Occlum构…

如何更好的使用cpm

nvidia发布了RAFT库&#xff0c;支持向量数据库的底层计算优化&#xff0c;RAFT 也使用CMake Package Manager( CPM )和rapids-cmake管理项目&#xff0c;可以方便快捷的下载到需要的对应版本的thirdparty的依赖库&#xff0c;但是&#xff0c;一般情况下&#xff0c;项目是直接…

数据库复习1

1.试述数据、数据库、数据库管理系统、数据库系统的概念 1.数据(Data): 数据是关于事物的符号表示或描述。它可以是任何事实、观察或者测量的结果&#xff0c;如数字、字符、声音、图像等。数据在没有上下文的情况下可能没有明确的意义。 2.数据库(Database): 数据库是一个持…

面试题:集合篇

说说 List, Set, Queue, Map 四者的区别&#xff1f; List(对付顺序的好帮手): 存储的元素是有序的、可重复的。Set(注重独一无二的性质): 存储的元素是无序的、不可重复的。Queue(实现排队功能的叫号机): 按特定的排队规则来确定先后顺序&#xff0c;存储的元素是有序的、可重…

传输层协议 TCP UDP协议 解析(二)

文章目录 UDP&#xff1a;用户数据报协议UDP报文格式TCP与UDP的区别 UDP&#xff1a;用户数据报协议 UDP是一种面向无连接的传输层协议&#xff08;数据一直发送&#xff0c;没有ack&#xff0c;所以不需要考虑ack&#xff09;&#xff0c;传输可靠性没有保证。 UDP不提供重传…

Rust 实战thiserror+自定义错误消息体

导航 一、背景二、实践1、导入thiserror2、自定义错误消息体&#xff08;1&#xff09;创建ErrMsg.rs和创建自定义结构体&#xff08;2&#xff09;lib.rs添加ErrMsg&#xff08;3&#xff09;main函数&#xff08;4&#xff09;完整代码 一、背景 开发中遇到需要通用、能够满…