CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计,到文本布局分析,微软亚洲研究院精选论文

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

本周,人工智能领域最具学术影响力的顶级会议之一,CVPR 大会在美国西雅图举办。因此,这期的“科研上新”为大家带来了四篇微软亚洲研究院入选 CVPR 2024 的精选论文解读,涉及领域涵盖新视角图像合成、3D 人体姿态估计、视频编解码器、文本布局分析等多个相关主题。


本期内容速览

01. CVPR 2024 Highlight论文CoPoNeRF:统一对应点估计、相机姿态估计和神经辐射场重建,实现端到端双视图新视角合成

02. DCVC-FM:基于特征调制的视频编解码器

03. MVGFormer:用于3D人体姿态估计的多视角几何Transformers

04. 文本分组适配器:将文本布局分析能力装配在任意文本检测器上

CoPoNeRF:统一对应点估计、相机姿态估计和神经辐射场重建,实现端到端双视图新视角合成 (CVPR 2024 Highlight论文)

new-arrival-in-research-12-1

论文链接:https://arxiv.org/abs/2312.07246

在使用相机拍摄的多张二维图像进行三维神经辐射场(NeRF)建模和新视角渲染的过程中,传统的处理流程往往将其细分为三个子任务:图像特征点匹配、相机姿态估计与神经辐射场建模,并为每个子任务设计不同的算法模块以实现该子任务的目标。然而,由于每个算法模块都是独立设计的,每个子任务可能会引入不同的偏差,这就导致整个流程存在潜在的不一致风险。尤其在拍摄图片数量有限、相机姿态变化较大的情况下,该流程往往会使得最终新视角渲染效果欠佳。

针对这一问题,微软亚洲研究院的研究员们认识到,三个子任务之间共同追求的核心目标是从二维图像数据中精确解释并重建三维几何,因此,它们间的统一性和协同性亟待加强。在仅有两幅图像作为输入的情况下,研究员们提出了一个名为 CoPoNeRF 的创新框架。该框架无缝整合了二维图像对应点匹配、相机相对姿态估计与神经辐射场渲染,并利用这个具有统一性的框架,增强了各子任务间的协同性。CoPoNeRF 框架的设计强调的是三个任务共享一个统一的表征,且整个框架采用端到端的方式进行训练,旨在提升子任务间的协同性和整体模型的精度。

研究员们在真实世界的两个多样化室内和室外场景数据集上,对 CoPoNeRF 框架进行了广泛的评估。实验结果表明,该方法相较于先前的方法取得了明显改进,特别是在两幅图像视点变化较大、相机姿态难以精确获得的情况下新视角渲染效果获得极大提高。

图1:给定两幅可能存在极端视点变化的图像,CoPoNeRF 框架可以端到端地协同执行三个任务(2D 对应点估计、相机姿态估计和神经辐射场渲染),从而实现高质量的新视角图像合成。

图1:给定两幅可能存在极端视点变化的图像,CoPoNeRF 框架可以端到端地协同执行三个任务(2D 对应点估计、相机姿态估计和神经辐射场渲染),从而实现高质量的新视角图像合成。

DCVC-FM:基于特征调制的视频编解码器

new-arrival-in-research-12-3

论文链接:https://arxiv.org/abs/2402.17414

项目链接:https://github.com/microsoft/DCVC

相较于常用的基于残差编码的视频编解码器,基于条件编码的模型展现出了巨大的潜力,并在这几年取得了显著的发展。但在其向实用化迈进的过程中,仍存在两个亟待解决的关键问题:1. 考虑到不同带宽和存储的需求,如何设计一个能够支持可变码率的单一模型,且该码率范围需要足够大;2. 视频编解码器通过挖掘时域相关性以减小视频冗余,但这往往容易导致时域上的误差传播。因此,如何避免该误差传播造成的重建质量衰减。针对这两个问题,研究员们通过设计特征调制技术,提出了相应的解决方案。

为了实现大范围的可变码率,研究员们提出使用可学习的量化缩放器来调整每帧的隐特征(如图2右图所示)。在训练的过程中,研究员们设计了一种均匀的量化参数采样机制,以使得编解码器应对不一样的率失真权衡。

图2:DCVC-FM 的主框架图(左)和帧编码框架图(右)

图2:DCVC-FM 的主框架图(左)和帧编码框架图(右)

该训练机制可以帮助学习细粒度,并优化可调节的量化缩放器,从而能在一个很大的码率范围内,根据用户需求调节视频编码质量——可调的视频质量范围将从之前的3.8 dB增长到11.4 dB。另外,DCVC-FM 能够动态调节视频中的每帧质量,该功能也使得模型可以应对复杂易变的网络带宽环境,图3便展示了 DCVC-FM 在应对变化带宽方面的能力。

图3:码率控制示意

图3:码率控制示意

针对时域误差传播问题,已有的模型普遍采用频繁插入高质量帧内编码帧的方法来切断误差传播。尽管该方法可以有效遏制误差的扩散,但由于帧内编码的效率极低,整体的视频编码效率将显著降低。为此,研究员们设计了一种特征更新机制——当相邻帧的特征在时域传播时,研究员们将周期性地使用辅助性的特征提取器去调整并更新被传播的特征。这一机制使得 DCVC-FMDCVC-FM 在处理非常长的视频时仍能保持极高的压缩效率。如图4所示,DCVC-FM 在压缩性能方面已经超过了正在研发的下一代传统视频编码器标准的原型 ECM。

图4:压缩性能对比

图4:压缩性能对比

MVGFormer:用于3D人体姿态估计的多视角几何Transformers

new-arrival-in-research-12-7

论文链接:https://arxiv.org/abs/2311.10983

项目链接:https://github.com/XunshanMan/MVGFormer

在计算机视觉和机器学习领域,3D 人体姿态估计是一项具有挑战性的任务,因为它要求算法能够从图像或视频中准确地预测出人体关节的 3D 空间位置。这项技术对于深入理解人类行为、增强现实、虚拟现实、游戏动画以及人机交互等领域具有重要的应用潜力。然而,现有的基于深度学习的方法在处理多视角数据时,常常面临遮挡问题和视角变化所带来的挑战,特别是在准确解析几何信息方面仍显不足。

尽管目前的研究已经通过使用神经网络,在 3D 人体姿态估计上取得了进步,但这些方法在多视角设置中,尤其是在训练阶段未遇到的新视角和环境条件下,其性能表现往往不尽如人意。此外,现有的基于 Transformers 的端到端学习方法虽然能够处理遮挡问题,但在新场景下的泛化性能往往较差。因此,如何在保持端到端学习优势的基础上,提升模型对于新视角和遮挡情况的泛化能力,是当前研究面临的关键课题。

为了解决这个问题,研究员们提出了一种新的方法,其主要思想可以概括为以下三个部分:

1)混合模型设计:研究员们提出了一种新颖的混合模型 MVGFormer,该模型结合了几何模块和外观模块。几何模块负责处理所有与视角相关的 3D 任务,而外观模块则专注于从图像信号中估计 2D 姿态。

2)迭代细化过程:MVGFormer 通过迭代的方式,交替使用外观模块和几何模块来细化 2D 和 3D 姿态。外观模块基于图像特征预测2D姿态,几何模块利用三角测量法从 2D 姿态中恢复 3D 姿态。

3)端到端训练与评估:MVGFormer 支持端到端的训练,因此研究员们能通过一系列训练目标和损失函数来优化模型。在训练过程中,模型将学习如何准确地从一组初始化查询中重建 3D 人体姿态。

图5:MVGFormer 模型结构

图5:MVGFormer 模型结构

实验结果表明,相较于目前领域内的前沿方法,MVGFormer 在多种测试条件下均展现出了卓越的性能,特别是在那些训练阶段未曾遇到的新视角下,其表现尤为突出。这一成就主要得益于 MVGFormer 强大的泛化能力,即便在全新的视角条件下,它仍能保持对 3D 人体姿态的高精度估计,对于需要在多种视角下理解和预测人体动作的应用场景具有重要意义。

图6:MVGFormer 将初始化查询恢复出 3D 人体姿态的过程

图6:MVGFormer 将初始化查询恢复出 3D 人体姿态的过程

此外,MVGFormer 的框架还具有通用性,可以应用于其他关键点估计任务,如形状、手部和面部估计。未来,研究员们也可能会探索将该架构扩展到基于视频的系统中,以利用时间信息实现更稳健的追踪。

文本分组适配器:将文本布局分析能力装配在任意文本检测器上

new-arrival-in-research-12-10

论文链接:https://arxiv.org/abs/2405.07481

随着深度学习技术的发展,场景文本检测和识别领域已取得了重大进步。然而,如何将检测到的众多文本区域进行符合语义的分组并构建段落结构——场景文本布局分析问题,仍面临着诸多挑战。这些问题包括但不限于标注数据集缺乏、较难利用已有的文本检测器、缺少端到端模型等。

研究员们发现,场景文本布局分析的结果极大地依赖于文本检测的准确性,但现有的文本布局分析方法要求从头开始联合文本布局分析,与文本检测器进行联合训练,这种方法往往导致文本检测器训练不充分。

基于这一发现,研究员们利用在大量文本检测数据集上训练得到的预训练文本检测器,成功解决了因网络结构差异和输出格式不同所带来的挑战,并且让模型在冻结所有原有权重的情况下能够正常进行文本布局分析。最终,研究员们提出了通用的文本分组适配器(Text Grouping Adapter,TGA),显著提升了文本布局分析性能,并大幅加速了训练流程。

图7左图展示了装配了 TGA 的模型整体框架,其中原文本检测器模块可选择在训练过程中冻结所有权重。右图则展示了 TGA 的内部结构:首先,文本区域将被转化成实例掩码,从而得到文本实例特征;接着,预测文本组合掩码,确保属于同一组的文本实例具有相似的特征;最终,输出文本实例的关系矩阵,以此形成文本组合。

图7:装配有 TGA 的模型整体框架(左)和 TGA 内部结构(右)

图7:装配有 TGA 的模型整体框架(左)和 TGA 内部结构(右)

具体而言,TGA 包括两个重要模块:文本区域特征组装模块(Text Instance Feature Assembling)和文本组合掩码预测模块(Group Mask Prediction)。文本区域特征组装模块主要把不同文本检测器的输出统一成为文本区域掩码的形式,并且通过掩码和图片像素嵌入来组装成文本区域特征,这些特征随后会被送入文本组合掩码预测模块以及最终的文本关系预测模块。而文本组合掩码预测模块则通过预测文本组合的共同掩码,确保属于同一文本组合的文本区域具有相似的特征,从而在文本实例的关系矩阵中预测出正确的关系。

实验结果表明,TGA 能与多种不同网络结构与输出格式的文本检测器兼容。此外,TGA 还能够与端到端文本识别模型(Text Spotting Model)结合使用,实现文本检测、文本识别以及文本布局分析结果的同步输出。通过冻结文本检测器,模型能在仅有之前工作13%的可训练参数的情况下,仍能够得到领先的文本检测和文本布局分析结果。研究员们针对 TGA 损失函数的一系列消融实验进一步表明,TGA 有效解决了正负样本不平衡的问题。

文本布局分析背后的核心问题在于,视觉模型如何准确判断视觉对象间的关系以及它们在场景中的拓扑结构。未来,研究员们将持续关注这一问题,并在 Windows UI 场景和自然图像分析方面进行更加深入的探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730362.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

DLS平台:美联储松绑预期升温,金价飙升至2365美元

摘要 美联储鹰派官员古尔斯比对降息态度有所松动,导致金价一度升至2365美元。市场对美联储未来的货币政策预期有所改变,黄金作为避险资产的吸引力增强。本文将详细分析美联储官员态度变化对金价的影响、当前市场对黄金的预期及其未来走势。 美联储官员态…

Spring Boot中的各种事件

spring boot 各种事件贯穿整个启动的生命周期,读懂了这些事件也差不多理解了springboot的启动流程。 SpringApplicationRunListener中的事件 接口org.springframework.boot.SpringApplicationRunListener定义了spring启动过程中各个事件被触发的顶层方法 public …

JavaScript的学习之强制类型转换

目录 一、什么是强制类型转换 二、其他类型转化为String类型 方式一:调用被转化数据类型的toString()方法 方式二:调用String函数,并将我们要转换的数据添加进去为参数 三、其他类型转化为Number类型 方式一:使用Number()函数…

Python有哪些就业方向?就业市场广阔!

Python是一种跨平台的计算机程序设计语言,是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python语言在人工智能的发展下,越来越多计算机企业开始广泛使用,同时Python的就业方向也逐渐广阔。 YesPMP为学习Python的技术人员…

【环境变量问题:计算机删除环境变量的恢复方法;此环境变量太大。此对话框允许将值设置为最长2047个字符】

不小心误删了win10系统环境变量可以试试下文方法恢复。 本方法针对修改环境变量未重启的用户可以使用,如果修改环境变量,然后还重启了,只能说重新来。 方法一:使用命令提示符恢复 被修改的系统Path只是同步到了注册表中&#x…

QListWidget、QMenu、Action、customContextMenuRequested

QListWidget的初始化、清空、Append添加、Insert添加、删除item QListWidget的事件的使用 QToolBox的使用,每个Page可以添加其他控件 QToolBar使用代码添加QMenu,QMenu添加3个Action QToolButton绑定Action 布局 其中 QSplitter比较特殊, 允许在水平或垂…

策略模式:applicationContext.getBeansOfType()方法

applicationContext.getBeansOfType() 一般用来获取某个接口的所有实例Bean 方法定义如下: 入参一般是接口,即interface。响应是个Map结构,key bean在容器中的名称,value bean实列 开发步骤: 1.定义接口 2.定义…

NGINX_十八 nginx 访问控制

十八 nginx 访问控制 1 nginx 访问控制模块 (1)基于IP的访问控制:http_access_module (2)基于用户的信任登录:http_auth_basic_module 2 基于IP的访问控制 2.1 配置语法 Syntax:allow addr…

kettle从入门到精通 第七十二课 ETL之kettle 三谈http post(含文件上传),彻底掌握参数传递

场景:群里有个小伙伴在使用http post步骤调用接口时遇到问题,postman调用正常,但是kettle中调用异常。 解决方案:既然postman调用接口正常,肯定是http post步骤中某些参数设置的不正确导致的。那就把常用的方式都梳理下…

C++11 右值引用和移动语义

目录 1.左值引用和右值引用 2.右值引用使用场景(移动语义)和意义 3.右值引用引用左值及其一些更深入的使用场景分析 4.完美转发 1.左值引用和右值引用 传统的C语法中就有引用的语法,而C11中新增了的右值引用语法特性,所以从现…

云计算考试题

Cloud ❀ 云计算-虚拟化常见的两种架构_裸金属架构和宿主型架构的区别-CSDN博客 为啥要成2 11 bcd 16 acd abcd BCD NAS为啥支持文件存储的协议 选BCD 什么是网络文件系统 选bcd 错题 选abc 选bcd 选 abd

【ARMv8/v9 GIC 系列 4.2 -- GIC CPU Interface 详细介绍】

文章目录 GIC CPU Interface 介绍CPU Interface 主要寄存器 GIC CPU Interface 介绍 A 系列处理器提供 5个管脚来实现中断,分别是: nIRQ:物理普通中断nFIQ:物理快速中断nVIRQ:虚拟普通中断nVFIQ:虚拟快速…

运算放大器(运放)积分器电路

积分器电路 运算放大器(运放)积分器电路是在图2运放反相放大器的电路上增加一个积分电容构成,该积分电容并联在运算放大器的反馈电阻上,见图1。 运算放大器(运放)反相放大器电路 设计目标 输入fMin输入f0dB输入fMax输出VoMin输出VoMax电源Vcc电源Vee1…

【JS重点19】this指向问题总结

目录 一:普通函数this指向 普通函数在严格模式下: 二:箭头函数this指向 this指向说明 不适用this情况 三:改变this指向 1 call() 语法格式: 作用: 2 apply() 语法格式: 作用&#x…

C#.net6.0语言+B/S架构+前后端分离 手术麻醉信息管理系统源码

C#.net6.0语言+B/S架构前后端分离 手术麻醉信息管理系统源码 什么是手术麻醉信息管理系统 满足医院等级评级需求 满足电子病历评级需求 满足科室需求 术前 1、患者术前评估/诊断 2、术前讨论制定手术方案 3、手术准备 4、术前准备 术中 1、送手术室 2、麻…

oracle12c到19c adg搭建(五)dg搭建后进行切换19c进行数据字典升级

一、备库切主库升级 12c切换为19c主库的时候是由低版本到高版本所以cdb和pdb的数据字典需要进行升级才可以让数据与软件版本兼容。 1.1切换 SQL> alter database recover managed standby database finish; Database altered. SQL> alter database commit to switcho…

基于 NXP LS1046 +FPGA系列 CPCI 架构轨道交通专用板卡

基于 NXP LS1046 系列 CPCI 架构轨道板卡 该产品是一款 CPCI 无风扇架构的高可靠性板卡,CPU 选用 NXP LS1046A 系统平台,支持嵌入式 Linux 或者标准 Ubuntu Linux 、凝思等操作系统,轨道交通 EMC 及宽温级别设计,板载多路 M12 高速…

SQLite扩展插件终极集合

作为一个嵌入式数据库引擎,SQLite 与其他数据库管理系统相比,缺少了一些功能。不过 SQLite 提供了一个扩展机制,因此我们可以在网络上找到大量的 SQLite 插件。 今天我们介绍的这个插件叫做 sqlean,它打包了许多流行的 SQLite 扩…

【windows】字体安装手册

windows字体安装手册 1 下载字体文件 百度搜索XXX字体ttf文件进行下载 附:宋体gb2312下载地址: https://www.downza.cn/soft/7780.html 2 字体安装 1.搜索字体 2.将下载的ttf文件拖拽添加 3.关闭办公软件重新打开后,outlook、word、…

装备制造业CRM解决方案

01、数字化转型驱动企业,向“以客户需求驱动创新生产”的智能制造业转变 我国装备制造业经过多年的发展,取得了令人瞩目的成就,形成了门类齐全、具有相当规模和一定水平的产业体系;主要包含通用设备、专用设备、电气机械、交通运…