CVPR 2023 | 计算机视觉顶会亮点前瞻

在知识和技术都迅速更新迭代的计算机领域中,国际计算机视觉与模式识别会议(CVPR)是计算机视觉方向的“顶级流量”,引领着学科及相关领域的研究潮流。今天我们为大家带来5篇微软亚洲研究院被 CVPR 2023 收录的论文,主题涵盖手语识别与检索、多模态生成、图像编辑、视频理解任务等。

4月,微软亚洲研究院举办了 CVPR 2023 论文分享会,点击链接直达精彩论文分享回顾。

  • Session1:Visual Generation
  • Session2:Visual Foundation Model
  • Session3:Visual+X

CiCo:基于跨语言对比学习的域可感知手语检索

论文链接:https://arxiv.org/pdf/2303.12793.pdf

代码链接:https://github.com/FangyunWei/SLRT

最近,手语理解领域中提出了全新的手语检索任务,包含文本-手语视频检索、手语视频-文本检索两个子任务。与传统的视频文本检索不同,手语视频不仅包含视觉信号,作为一种自然语言,它还承载着丰富的语义信息。对此,微软亚洲研究院的研究员们将手语检索同时定义为视频文本检索问题和跨语言检索问题,提出了基于跨语言对比学习的域可感知手语检索算法 CiCo。

根据手语和自然语言的语言特性,CiCo 通过对比学习的方式将文本和手语视频映射至联合嵌入空间,同时学习识别细粒度的手语到单词的跨语言映射。另外,为了缓解手语检索任务的数据稀缺问题,研究员们引入了在大规模手语视频数据集上预训练的域无关手语编码器,并生成了伪标签标注来微调编码器,从而获得适用于目标域的域可感知手语编码器。CiCo 在多个数据集上显著超越了现有方法,例如,在 How2Sign 数据集上取得了 T2V+22.4 和 V2T+28.0 的 R@1 提升。研究员们希望 CiCo 可以成为手语检索中可靠的基准模型。

图1:CiCo 的模型框架

自然语言辅助的手语识别

论文链接:https://arxiv.org/abs/2303.12080

代码链接:https://github.com/FangyunWei/SLRT

广泛应用于聋哑人群体的手语是一种通过视觉信号传递信息的语言。然而,大量视觉上相似的手势极大地限制了手语识别模型的准确率。虽然这些手势难以只凭眼力区分,但它们的文本标签(通常为一个单词)却可以提供更多有用的信息。因此,研究员们提出了自然语言辅助的手语识别模型(NLA-SLR)。

首先,对于语义相似的手势,研究员们提出了自然语言感知的标签平滑。如图2(a)所示,在训练过程中计算当前手势标签与词汇表中每个标签的语义相似度,并根据相似度向量生成软化标签作为优化目标。这一技术能够有效正则化模型,降低训练难度。其次,对于语义差别大的手势,研究员们提出了跨模态混合,如图(b)所示通过将训练过程中模型的视觉特征与词汇表中的文本特征一一混合,并设计相应的跨模态混合标签,能够在自然语言的帮助下提高手势的可分性,从而提升模型性能。最后,经过三个广泛使用的标准数据集中的验证, NLA-SLR 均达到了最高的识别准确率。

图2:(a)基于语义相似性的标签平滑;(b)跨模态特征混合。

MM-Diffusion:生成音视频的双模态扩散模型

论文地址:https://arxiv.org/abs/2212.09478

代码地址:https://github.com/researchmm/MM-Diffusion

近年来,扩散模型已经在图像、视频、音频等领域取得了显著的成果。但是目前的研究主要聚焦在视觉或听觉的单模态生成,这样生成出来的内容与真实网络世界的视频依然有较大差距,不符合人们的视听习惯。同时,从研究的角度出发,视频和音频在时序上也是天然对齐的。因此,这篇工作旨在探索音视频双模态同时生成的新方法。研究员们提出了基于双流 U 形网络的多模态扩散模型 MM-Diffusion。该方法不仅在音视频单模态质量的对比超过了当前的最佳方法,还在同步生成视频-音频任务中验证了能提高声、画各自模态的生成质量。

图3:视频-音频生成样例

MM-Diffusion 首先将只能构建单个分布的扩散模型机制扩展到构建多个分布(如图4所示)。由于音视频分布的形状不同、模态差异较大,前向扩散过程的加噪处理需要独立进行,但由于音视频的相关性,反向逆扩散过程则采取了一个统一的音视频模型同时降噪双模态。

图4:MM-Diffusion 示意图

为了构建适配音视频的统一降噪模型,研究员们提出了双流 U 形网络。如图5所示,双流 U 形网络由音频子网络和视频子网络构成。音频子网络以空洞卷积为主要结构,对音频一维波形数据进行长时序建模;视频子网络采用二维一维卷积层和二维一维注意力机制,对视频三维数据进行时空建模。之后,在若干相交节点对两支子网络做跨模态对齐。然而由于音视频两个模态的像素空间都非常巨大,直接使用跨模态注意力机制对齐并不现实。为此,研究员们设计了基于随机偏移的注意力机制,用局部的注意力机制的运算类推,进而起到全局对齐的效果。

图5:双流 U 形网络模型图

研究员们在不同的数据集上验证了 MM-Diffusion。实验证明,不论是客观指标还是主观评测,MM-Diffusion 均超过了之前可复现单模态生成的 SOTA。该工作同时还证明了对比单模态生成,两个模态同时生成质量会更高,除此之外,研究员们进一步验证了 MM-Diffusion 具备 zero-shot 条件生成的能力(输入视频生成对应音频或反之)。

基于样例的图像编辑

论文链接:https://arxiv.org/pdf/2211.13227.pdf

代码链接:https://github.com/Fantasy-Studio/Paint-by-Example

许多最新的研究成果在基于文本的图像编辑领域都取得了巨大成功。然而,就像俗语所说“一图胜千言”,相比文本,图像能够更加形象、直接地表达用户所期待的图像编辑结果。因此,研究员们首次探索了基于参考图像的图像编辑任务,以实现更精确的图像编辑。

为了实现这个目标,研究员们通过自监督的训练方式解耦和重组原始图像与参考图像。然而,直接重组会导致生成结果含有明显的伪影。研究员们分析了出现伪影的原因,并且提出了一个压缩瓶颈和强大的数据增广策略,以避免网络直接复制和粘贴参考图像。同时,为了保证编辑过程的可控性,研究员们为参考图像设计了一个任意形状的掩膜,并利用 Classifier-free guidance 来提升生成结果与参考图像的相似度。在使用时,整个框架仅需要一次扩散模型的去噪过程,无需任何迭代优化。研究员们证明了该方法性能的优越,且能够在真实世界的图像上进行可控的高保真编辑。

图6:根据示例进行编辑可自动地将参考图像融合到源图像中,从而达到高质量的编辑效果

流式视频模型

论文链接:https://arxiv.org/abs/2303.17228

代码地址:https://github.com/yuzhms/Streaming-Video-Model

视频理解包含基于序列(sequence-based)和基于帧(frame-based)两类任务,它们通常分别采用两种独立架构进行建模。基于序列的视频任务(如动作识别)使用视频主干网络直接提取时空特征,而基于帧的视频任务(如多目标跟踪,MOT)则依赖于图像主干网络提取空间特征。相较之下,研究员们提出了一个统一了视频理解任务的新颖的流式视频架构(Streaming Video Model),该架构既解决了视频主干网络因显存消耗无法处理长视频的问题,又弥补了图像主干网络在时序建模方面的不足。

具体而言,本文的流式视频模型由一个时序感知空间编码器(temporal-aware spatial encoder)和一个与任务相关的时序解码器(temporal decoder)组成。编码器为每个视频帧提取包含时序信息的空间特征,而解码器则负责将帧级特征转换为基于序列任务的特定输出。与使用图像主干网络的基于帧的架构相比,流式视频模型的时序感知空间编码器利用了来自过去帧的附加信息,提升了特效的强度和稳健性。与使用视频主干网络的基于片段的架构相比,流式视频模型分离了帧级特征提取与片段级特征融合,减轻了计算压力,同时适用于更灵活的使用场景,如长视频推理或在线视频推理。本文的模型基于视觉 Transformer 构建,其中帧内使用自注意力(self-attention)以提取空间信息,帧间使用跨注意力(cross-attention)以融合时序信息。

文章中提出的流式视频模型在 Kinetics400, Something-Something v2 等动作识别数据集上取得了 SOTA 的性能,在 MOT17 多目标跟踪数据集上也取得了有竞争力的结果。这些实验都证明了流式视频模型在两类任务上的通用性和有效性。

图7:流式视频模型的示意图(左侧),以及与传统的基于帧的架构和基于片段的架构进行的比较(右侧)

随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/30190.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JVM知识点梳理

什么是JVM? JVM是java虚拟机的缩写 ,也是java程式可以实现跨平台的关键。 JVM部分需要知道什么东西? JVM的结构和功能、参数配置、GC回收机制、GC回收器极其优缺点。 JVM结构(栈,程序计数器,方法区&#xf…

基于深度学习的高精度打电话检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度打电话检测识别系统可用于日常生活中或野外来检测与定位打电话目标,利用深度学习算法可实现图片、视频、摄像头等方式的打电话目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检…

《C# 教程》菜鸟教程学习笔记

学习地址 ######C#有用的网站 C# Programming Guide - 介绍了有关关键的 C# 语言特征以及如何通过 .NET 框架访问 C# 的详细信息。Visual Studio - 下载作为 C# 集成开发环境的 Visual Studio 的最新版本。Go Mono - Mono 是一个允许开发人员简单地创建跨平台应用程序的软件平台…

【每日算法】【203. 移除链表元素】

☀️博客主页:CSDN博客主页 💨本文由 我是小狼君 原创,首发于 CSDN💢 🔥学习专栏推荐:面试汇总 ❗️游戏框架专栏推荐:游戏实用框架专栏 ⛅️点赞 👍 收藏 ⭐留言 📝&…

Docker基本介绍

一、定义 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 解决了运行环境和配置问题的软件容器, 方便做持续集成并有助于整…

UnityVR--UIManager--UI管理1

目录 前言 UI节点的结构 需要用到的组件 1. CanvasGroup 2. Button等控件的OnClick()监听 3. EventTrigger 建立UI工具集 1. 管理UI节点 2. UIBase包含了以下的工具 建立分面板的管理工具——以主面板MainUi为例 前言 UI在项目中的重要性不言而喻,并且UI控件的…

软件设计师第4题

首先,我是备考2023年上半年的考试。 一、历年考试题 历年的考题如下,从表中分析可以看出,动态规划法、排序算法、回溯法、分治法是很大概率考察的算法,尤其是动态规划法,本身其理解难度较高,且可以出的题型…

【计网】第二章 物理层

文章目录 物理层一、物理层的基本概念二、数据通信的基础知识2.1 数据通信系统的模型2.2 有关信道的基本概念2.3 信道的极限容量2.3.1 奈奎斯特定理2.3.1 香农定理2.3.2 信噪比 三、物理层下面的传输媒体3.1 导引型传输媒体3.2 非导引型传输媒体 四、信道复用技术4.1 频分复用 …

【小沐学Python】Python实现在线电子书(Sphinx + readthedocs + github + Markdown)

文章目录 1、简介2、安装3、创建测试工程4、项目文件结构5、编译为本地文件6、编译为http服务7、更改样式主题8、支持markdown9、修改文档显示结构10、项目托管到github11、部署到ReadtheDocs结语 1、简介 Sphinx 是一个 文档生成器 ,您也可以把它看成一种工具&…

STC15WProteus仿真HX711电子秤串口计价称重4x4键盘STC15W4K32S4

STC15WProteus仿真HX711电子秤串口计价称重4x4键盘STC15W4K32S4 Proteus仿真小实验: STC15WProteus仿真HX711电子秤串口计价称重4x4键盘STC15W4K32S4 功能: 硬件组成:STC15W4K32S4单片机 LCD12864显示器4x4矩阵键盘HX711电子秤 1.单片机通…

操作教程:EasyCVR视频融合平台如何配置平台级联?

EasyCVR视频融合平台基于云边端一体化架构,可支持多协议、多类型设备接入,在视频能力上,平台可实现视频直播、录像、回放、检索、云存储、告警上报、语音对讲、电子地图、集群、智能分析以及平台级联等。平台可拓展性强、开放度高、部署轻快&…

NUCLEO-F411RE RT-Thread 体验 (3) - GCC环境 uart驱动的移植以及console的使用

NUCLEO-F411RE RT-Thread 体验 (3) - GCC环境 uart驱动的移植以及console的使用 1、准备工作 在第一节里,我们用stm32cubemx将pa2 pa3管脚配置成usart2,用于跟st-link虚拟串口的打印用,那么我们先重定向printf函数,看这条通道是…

2009年iMac装64位windows7

前言:单位领导会花屏的iMac(24寸 2009年初版)我捡来用,应该大约是在2020年安装了32位windows7,发现不安装显卡驱动便不会花屏死机,于是就当简单的上网机用着,毕竟iMac的显示屏还是蛮不错的。现在…

windows系统安装显卡驱动软件和CUDA11.1的详细教程

深度学习目标检测框架在进行图像计算时需要GPU进行加速,需要用到硬件GPU显卡,目标检测框架和硬件GPU建立联系需要通过①显卡驱动软件;②CUDA软件依次建立联系。这两个软件,可直接从NVIDIA官网下载,版本没有非常严格的需…

python获取某乎热搜数据并保存成Excel

python获取知乎热搜数据 一、获取目标、准备工作二、开始编码三、总结 一、获取目标、准备工作 1、获取目标: 本次获取教程目标:某乎热搜 2、准备工作 环境python3.xrequestspandas requests跟pandas为本次教程所需的库,requests用于模拟h…

WinDbg安装入坑3(C#)

由于作者水平有限,如有写得不对的地方,请指正。 使用WinDbg的过程中,坑特别的多,对版本要求比较严格,如: 1 32位应用程序导出的Dump文件要用32位的WinDbg打开,想要没有那么多的问题&#xf…

SpringCloud Eureka注册服务提供者(七)

这里我们在原来的服务提供者项目 microservice-student-provider-1001 上面直接修改&#xff1a; 首先pom.xml修改&#xff0c;加上eureka客户端依赖&#xff1a; <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>…

【正点原子STM32连载】 第三十二章 光敏传感器实验 摘自【正点原子】STM32F103 战舰开发指南V1.2

第三十二章 光敏传感器实验 本章&#xff0c;我们将学习使用STM32开发板板载的一个光敏传感器。我们还是要使用到ADC采集&#xff0c;通过ADC采集电压&#xff0c;获取光敏传感器的电阻变化&#xff0c;从而得出环境光线的变化&#xff0c;并在TFTLCD上面显示出来。 本章分为如…

VSCode 安装配置教程详解包含c++环境配置方法

vscode安装教程及c环境配置详解 vscode下载安装下载C扩展插件VScode C环境配置配置环境变量检查 MinGW 安装配置编译器&#xff1a;配置构建任务检查是否安装了编译器配置完毕 vscode下载安装 地址&#xff1a;官网下载地址 直接打开下载好的.exe文件进行安装即可&#xff0…

“暗网议会”如今已成为现实

图片来源:Marcin Balcerzak 最近&#xff0c;“暗网议会”已经成为了网络犯罪分子试图证明自己影响力的最新流行语&#xff0c;安全内部人士对这个词也很感兴趣。 上周五&#xff0c;臭名昭著的亲俄黑客组织Killnet在其电报威胁帖子中使用了这个词语。随后&#xff0c;twitte…