每日学术速递4.13

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention(CVPR 2023)

标题:Slide-Transformer:具有局部自注意力的分层视觉变换器

作者:Xuran Pan, Tianzhu Ye, Zhuofan Xia, Shiji Song, Gao Huang

文章链接:https://arxiv.org/abs/2302.02814

项目代码:https://github.com/LeapLabTHU/Slide-Transformer

摘要:

        自注意力机制一直是 Vision Transformer (ViT) 近期进展的关键因素,它可以从全局上下文中提取自适应特征。然而,现有的自注意力方法要么采用稀疏全局注意力或窗口注意力来降低计算复杂度,这可能会损害局部特征学习或受制于一些手工设计。相比之下,局部注意将每个查询的感受域限制在其自身的相邻像素内,享有卷积和自我注意的双重好处,即局部归纳偏差和动态特征选择。然而,当前的局部注意力模块要么使用低效的 Im2Col 函数,要么依赖于特定的 CUDA 内核,这些内核很难推广到没有 CUDA 支持的设备。在本文中,我们提出了一种新颖的局部注意模块 Slide Attention,它利用常见的卷积运算来实现高效、灵活和通用性。具体来说,我们首先从新的基于行的角度重新解释基于列的 Im2Col 函数,并使用 Depthwise Convolution 作为有效的替代。在此基础上,我们提出了一种基于重新参数化技术的变形移位模块,进一步将固定键/值位置放宽到局部区域的变形特征。通过这种方式,我们的模块以高效灵活的方式实现了局部注意力范式。大量实验表明,我们的幻灯片注意力模块适用于各种高级 Vision Transformer 模型并兼容各种硬件设备,并在综合基准测试中实现了持续改进的性能。此 https URL 上提供了代码。

2.Video-kMaX: A Simple Unified Approach for Online and Near-Online Video Panoptic Segmentation

标题:Video-kMaX:一种用于在线和近在线视频全景分割的简单统一方法

作者:Inkyu Shin, Dahun Kim, Qihang Yu, Jun Xie, Hong-Seok Kim, Bradley Green, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen

文章链接:https://arxiv.org/abs/2304.04694

摘要:

        视频全景分割 (VPS) 旨在通过分割视频中的所有像素和关联对象来实现全面的像素级场景理解。当前的解决方案可以分为在线和近在线方法。随着时间的推移,每个类别都有自己的专门设计,这使得在不同类别之间调整模型变得非常重要。为了减轻这种差异,在这项工作中,我们提出了一种统一的在线和近在线 VPS 方法。所提出的 Video-kMaX 的元架构由两个组件组成:剪辑内分割器(用于剪辑级分割)和跨剪辑关联器(用于剪辑以外的关联)。我们提出 clip-kMaX(clip k-means mask transformer)和 HiLA-MB(分层位置感知内存缓冲区)分别实例化分段器和关联器。我们的一般公式包括在线场景作为一种特殊情况,采用的剪辑长度为 1。 Video-kMaX 在 KITTI-STEP 和用于视频全景分割的 VIPSeg 以及用于视频语义分割的 VSPW 上设置了新的最先进技术。代码将公开。

3.Training-Free Layout Control with Cross-Attention Guidance

标题:具有交叉注意力引导的免训练布局控制

作者:Minghao Chen, Iro Laina, Andrea Vedaldi

文章链接:https://arxiv.org/abs/2304.03373

项目代码:https://silent-chen.github.io/layout-guidance/

摘要:

        最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建,例如,用户指定的布局。为了确定如何最好地引导注意力,我们研究了不同注意力图在生成图像时的作用,并试验了两种可供选择的策略,前向引导和后向引导。我们通过几个实验对我们的方法进行了定量和定性评估,验证了其有效性。我们通过将布局指导扩展到编辑给定真实图像的布局和上下文的任务,进一步证明了它的多功能性。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/12758.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Camera | 8.让rk3568支持前后置摄像头

一、目标 本文主要目标是,支持前置摄像头0v5648、后置摄像头ov13850,以及移植过程遇到的一些小问题的解决。 1. 摄像头连接图 参考上图,摄像头详细信息如下: 2个摄像头均连接在I2C通道42个摄像头共用同一个MIPI数据通道2个摄像…

LeetCode:454. 四数相加 II —— 哈希表为什么叫哈希表~

🍎道阻且长,行则将至。🍓 🌻算法,不如说它是一种思考方式🍀 算法专栏: 👉🏻123 hash是什么,哈希表为什么叫哈希表? 一、🌱454. 四数…

Java基础(八)异常处理

1. 异常概述 1.1 什么是生活的异常 男主角小明每天开车上班,正常车程1小时。但是,不出意外的话,可能会出现意外。 出现意外,即为异常情况。我们会做相应的处理。如果不处理,到不了公司。处理完了,就可以…

一文搞懂Plant Simulation中的Rotation设置

在处理3D动画或者展示时,常常需要在Plant Simulation调整数模的姿态,静态设置或动态设置Rotation是一个很重要的手段。 编辑3D属性,在Transformation选项卡中,我们可以看到Rotation的设置参数,如上图所示,只有一个角度和3个轴参数。如果对计算机图形学不了解的同学,估计…

MySQL优化——Explain分析执行计划详解

文章目录 前言一. 查看SQL执行频率二. 定位低效率执行SQL三. explain分析执行计划3.1 id3.2 select_type3.3 table3.4 type3.5 key3.6 rows3.7 extra 四. show profile分析SQL 前言 在应用的的开发过程中,由于初期数据量小,开发人员写 SQL 语句时更重视…

【技术分享】接口自动化测试中,如何做断言验证?

在服务端自动化测试过程中,发起请求之后还需要对响应值进行验证。验证响应信息符合预期值之后,这一条接口自动化测试用例才算完整的通过。所以这一章节,将会讲解在接口自动化测试中,如何对服务端返回的响应内容做断言验证。 实战…

Linux命令·traceroute

通过traceroute我们可以知道信息从你的计算机到互联网另一端的主机是走的什么路径。当然每次数据包由某一同样的出发点(source)到达某一同样的目的地(destination)走的路径可能会不一样,但基本上来说大部分时候所走的路由是相同的。linux系统…

【微服务笔记13】微服务组件之Config配置中心基础环境搭建

这篇文章,主要介绍微服务组件之Config配置中心基础环境搭建。 目录 一、Config配置中心 1.1、什么是配置中心 1.2、Config配置中心特点 二、搭建Config配置中心 2.1、配置Git仓库 2.2、创建ConfigServer服务端 (1)引入依赖 &#xff…

【天梯赛—不想坑队友系列】L1-002 打印沙漏(java)

题目链接 PTA | 程序设计类实验辅助教学平台 本题要求你写个程序把给定的符号打印成沙漏的形状。例如给定17个“*”,要求按下列格式打印 ************ *****所谓“沙漏形状”,是指每行输出奇数个符号;各行符号中心对齐;相邻两行符…

企业在实施采购管理时需要注意哪些问题?

采购管理是指企业为了获得所需的物资和服务等,通过筛选供应商、谈判合同、执行采购计划等一系列过程来实现目标的管理活动。在实施过程中,采购管理需要注意以下几个问题: 1、采购策略的选择 采购策略的选择是采购管理中非常关键的环节。不同…

NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022

然后我们来看一下如何操作模板 首先我们准备好了一个模板,叫做CsvToJSON这样一个模板文件了 然后我们再来看左下角有个上传模板 可以选择这个模板上传上来,然后,就可以在右侧找到,菜单,找到template,点击,来查看模板了 然后添加组,就是顶部的那个两个圆圈的组件拖过来以后用来…

Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载

文章目录 一、业务背景二、实现思路二、准备工作1.准备data模板.xlsx2.引入poi相关依赖,用于操作excel3.针对WorkBookZIP压缩输入/输出流,相关方法知识点要有所了解 三、完整的项目代码四、可能遇到的问题错误场景1:java.io.IOException: Str…

Echarts数据可视化(下)

四、数据可视化项目实战 后台搭建 结合Vue开发图表组件 WebSocket实现数据推送 主题切换/页面合并/全屏切换 4.1 Koa2 学习介绍:koa2 - 简书 官网:Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架 | Koajs 中文文档 4.1.1 Koa2 的介绍 基…

百度智能云对象存储BOS批量下载文件方法

百度智能云对象存储BOS支持批量打包下载吗?目前对象存储BOS浏览器端不支持批量下载,可以使用对象存储BOS桌面或BOSCMD批量下载,也可以使用API/SDK调用接口循环下载。新手站长网来详细说下百度云对象存储BOS批量下载的方法: 目录 …

Git 分布式版本控制工具

文章目录 Git 分布式版本控制工具课程内容1. 前言1.1 什么是Git1.2 使用Git能做什么 2. Git概述2.1 Git简介2.2 Git下载与安装 TODO3. Git代码托管服务3.1 常用的Git代码托管服务3.2 码云代码托管服务3.2.1 注册码云账号3.2.2 登录码云3.2.3 创建远程仓库3.2.4 邀请其他用户成为…

c++小知识

1、一般头文件&#xff1a; #include<iostream> using namespace std; 2、ios::sync_with_stdio(false); 其含义是取消cin与stdin的同步&#xff0c;cout和stdout的同步 cin.tie(0); tie是将两个stream绑定的函数&#xff0c;空参数的话返回当前的输出流指针。 3、…

为什么网络安全缺口很大,招聘却很少?

2020年我国网络空间安全人才数量缺口超过了140万&#xff0c;就业人数却只有10多万&#xff0c;缺口高达了93%。这里就有人会问了&#xff1a; 1、网络安全行业为什么这么缺人&#xff1f; 2、明明人才那么稀缺&#xff0c;为什么招聘时招安全的人员却没有那么多呢&#xff1…

给想涨薪和正在学习Android的朋友们一些建议

前言 相信很多从事Android开发工作的朋友&#xff0c;在入职一年后会有申请涨薪的想法&#xff0c;但由于某些原因&#xff0c;公司拒绝了您的加薪申请&#xff0c;在我看来&#xff0c;出现这种情况主要有两种原因&#xff1a;第一个原因可能是你在工作中就只知道埋头苦干&am…

手撕Udp套接字|实现群聊通信|实现Windows Linux通信交互

​ 专栏和Git地址 操作系统https://blog.csdn.net/yu_cblog/category_12165502.html?spm1001.2014.3001.5482UdpSockethttps://github.com/Yufccode/BitCode/tree/main/Linux/%E4%BB%A3%E7%A0%81/0215Udp%E5%A5%97%E6%8E%A5%E5%AD%97 README 本项目通过Linux套接字编程&…

如何选择CDN厂商

如果您的在线业务面临着流量和访客数量的增加&#xff0c;如果您想提高网站速度和用户体验&#xff0c;选择合适的CDN提供商是朝着正确方向迈出的一步&#xff0c;那么如何来选择最合适的CDN厂商呢&#xff0c;火伞云小编今天为您解答&#xff1a; 一、测试潜在的CDN提供商 对…