ICCV 2023|小红书 4 篇入选论文亮点解读,「开集视频目标分割」获得 Oral

近日,ICCV 正式揭晓 2023 年论文接收结果,小红书技术团队共有 篇论文入选,其中 1 篇为 Oral 论文(Oral 接收率仅为 1.88%),最新科研成果涵盖了视频目标分割、3D 数字人重建、人体运动预测、视频分析等领域。

国际计算机视觉大会 ICCV 由 IEEE 主办,被誉为“计算机视觉三大顶级会议”之一,每两年召开一次,其论文集代表了计算机视觉领域最新的发展方向和研究水平。ICCV 2023 将于今年 10 月在法国巴黎举行,本届会议共收到全球 8068 篇论文投稿,2161 篇被接收,接收率为 26.78%。

以下为入选论文亮点解读,欢迎大家关注:

 01 

Towards Open-Vocabulary Video Instance Segmentation (Oral)

面向开放任务的视频实例分割( Oral )

论文作者:王昊臣(小红书实习生&阿姆斯特丹大学)、莱戈(小红书)、汤神(小红书)、夏侯(小红书)等

我们首次将视频目标分割能力从少数封闭的训练类别扩展到不受限的开放类别,并为这个全新任务提供了评测 Benchmark 和 Baseline模型,提高了视频目标分割的实用性,为开放类别上的通用视频目标分割研究打下了基础。

图片

图片

“视频目标分割”作为一项基础视频级任务,其目标是识别、分割和跟踪出现在一段视频中的物体。它既是视频内容理解、视频表征学习等上层任务的基础,亦可应用于视频抠图、编辑等创作工具。然而,传统的视频目标分割任务受限于获取训练集困难,仅限于某些特定的常见类别,因此其泛化能力和使用价值较低。

得益于近年来多模态模型的快速发展,计算机视觉领域的各项研究逐渐从封闭类别集合转变为开放类别集合,提高了深度学习模型的泛化能力,并能在不同应用场景下快速部署。受此启发,我们首次提出将视频目标分割任务从少数封闭的训练类别扩展到不受限的开放类别(Open-Vocabulary Video Instance Segmentation),并提供了相应的Benchmark集和Baseline模型。

● 论文引入开放词汇视频实例分割这一全新任务,通过允许对来自开放类别的对象进行分割、跟踪和分类,扩展了现有实例分割方法的能力,包括在训练过程中未见过的新类别。

● 为评估开放词汇视频实例分割,我们提出了一个大规模词汇视频实例分割数据集(LV-VIS),其中包括来自 1,196 个多样化类别的精确注释对象,显著超过现有数据集的类别数量。

● 我们提出了一种高效的内存引导 Transformer 架构(OV2Seg),用于实现端到端的开放词汇视频实例分割,并具有接近实时的推理速度。在 LV-VIS 和四个现有实例分割数据集上进行了大量实验,证明了 OV2Seg 在新类别上具有强大的零样本泛化能力。

扫描二维码即可查看论文:

图片
论文
图片
代码

 02

One-shot Implicit Animatable Avatars with Model-based Priors

基于模型先验的隐式可动数字人单样本学习

论文作者:黄洋逸(小红书实习生&浙江大学),王浩帆(小红书),张德兵(小红书)等

我们提出了一种从单个图像中学习人类特定神经辐射场的新方法 ELICIT。ELICIT 从 SMPL 模型引入 3D 身体形状几何先验,并使用基于 CLIP 的预训练模型引入视觉语义先验。我们使用两个先验进行联合优化,从而实现在单个图像输入的情况,还原出不可见姿态下的人体。

图片

现有用于创建人类化身的神经渲染方法,通常要么需要密集的输入信号(例如视频或多视图图像),要么利用从大规模特定 3D 人体数据集中学到的先验知识,以便可以使用稀疏视图输入进行重建。然而,当只有一张图像可用时,这些方法大多数都无法实现逼真的重建效果:身体形状不合理,或是背面不可见区域缺乏细节;这使得构建 3D 数字人的数据成本和门槛比较高。

为了能够高效创建逼真可动的 3D 数字化身,我们提出了一种名为 ELICIT 的新方法,用于从单张图像中学习人体特定的神经辐射场,以实现自由视角渲染,而无需依赖额外的训练数据。ELICIT 利用了两个先验知识:基于骨骼顶点的模板模型(即 SMPL )的 3D 几何先验,提供人体几何形状;基于 CLIP 预训练模型的视觉语义先验,补全穿衣人体的全身外观。两个先验共同指导优化过程,以创建不可见区域中的合理内容。

为了进一步提高重建结果的视觉细节,我们还提出了一种基于分割的采样策略,用于局部细化数字化身的不同部分,增加模型的细节和真实感。ELICIT 在多个知名基准数据集上进行了全面评估,包括 ZJUMoCAP、Human3.6M 和 DeepFashion,结果显示:在只有一张图像可用时,ELICIT 优于基线方法,为重建可动 3D 数字人打开了一条无须额外训练数据的新思路。在未来,我们会继续对其重建质量、重建速度进一步地优化探索,让高质量数字人更好、更快、门槛更低地走向应用,服务于3D AIGC、视频、直播等多样化的业务场景。

扫描二维码即可查看论文:

图片
论文

图片
代码

 03

Test-time Personalizable Forecasting of 3D Human Poses

面向分布外角色的个性化人体运动预测

论文作者:崔琼杰(小红书实习生&南京理工大学),王浩帆(小红书)等

由于数据有限或隐私限制,基于历史行为的运动预测模型往往无法很好地泛化到训练集中没有出现的人物,因此,我们提出一种名为"Helper-Predictor"测试时间个性化的新方法(即 H/P-TTP),在推理阶段根据个性化主体进行定制化,从而实现更准确的运动预测。

图片

传统的运动预测方法,通常是从源域数据中训练一个端到端的深度模型,直接应用于目标对象。然而,出于隐私考虑,目标对象及其自然特性(如行为特征)在训练中是未知的。源预训练模型很难适应这些源外特征,无法针对未见目标人物的特定属性进行个性化处理,从而导致预测结果不可靠。

为了解决这一挑战,我们提出一种名为 “Helper-Predictor” 测试时间个性化的新方法(即 H/P-TTP),用于部署各种未知人物/未知动作样本的 3D 人体运动预测。H/P-TTP 根据各种未知主体的特征获得定制的参数,实现领域通用学习,以获得更真实的预测。具体而言,Helper-Predictor 由显式和隐式增强器组成,前者产生噪声序列以提高鲁棒性,后者采用对抗学习范式生成新领域数据。辅助模型通过增强器处理源之外的样本,获取跨主体的不变上下文,并将这些知识传递给预测模型进行更新。预测模型在测试过程中可以进一步更新,以适应未知的测试对象。

实验证明:通过辅助模型和预测模型的结合,H/P-TTP 在三个大规模人体动作数据集(H3.6M、GRAB、HumanEva-l)上显著超越了传统方法,无论是在精度还是可视化方面。它不仅实现了对未知测试对象的个性化预测,还提高预测性能,具有实际应用的潜力。未来,该方法将有利于各类大规模人体运动分析算法的部署,扩展各种 End-To-End 模型的实际应用边界。

扫描二维码即可查看论文:

图片
论文主页

 04

MPI-Flow: Learning Realistic Optical Flow with Multiplane Images

MPI-Flow:从多平面图像中学习更真实的光流

论文作者:梁瑛平(小红书实习生&北京理工大学),刘家铭(小红书),张德兵(小红书)等

阻碍视频光流模型在业务场景持续优化的一个重要问题是“真实场景下光流数据的缺失”。本文提出 MPI-Flow,仅需单张图像,即可用体渲染的方式生成逼真的光流数据集,为真实世界的高质量光流数据集渲染打开了一扇新的大门。

图片

基于学习的光流估计模型的准确性,在很大程度上依赖于训练数据集的真实性。目前,生成此类数据集的方法要么使用合成数据,要么以有限的真实性生成图像。然而,这些数据与真实世界场景存在领域差距,限制了训练模型在实际应用中的泛化能力。

为此,我们提出一种无需额外训练数据,从单张真实世界图像生成逼真光流数据集的新方法。

● 为了生成高度逼真的新视角图像,我们从单视图图像中构建分层深度表示,称为多平面图像(MPl)。我们使用相机矩阵和平面深度计算每个平面的光流,以生成与新图像准确对应的光流图。随后利用体积渲染方式,将分层光流投影到输出光流图中。

● 我们提出了一个独立物体运动模块,在 MPI 中分离相机和动态物体运动,以确保运动的真实感。该模块解决了基于 MPI 的单视图方法缺陷,即光流仅有相机的运动产生,而不考虑任何物体移动。

● 我们设计了一个深度感知修复模块,合并新图像与动态对象,解决不自然的运动遮挡问题。

我们通过对真实世界数据集的大量实验,展示了该方法的卓越性能。它以低成本快速从大量单目图像中,构建大规模、运动复杂的成对图像及其光流标签;并基于学习的模型的无监督和监督训练中都取得了最先进的性能,显著提高泛化能力。未来,该方法将为视频理解、3D AIGC 等多样化业务场景提供更精准的光流估计。

扫描二维码即可查看论文:

图片
论文

图片
主页

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/166963.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

国产化区块链平台-FISCO BCOS 区块链

目录 FISCO BCOS 版本信息 系统概述 关键特性 组件服务 开发运维工具 FISCO BCOS作为一种企业级区块链平台,为企业和组织提供了高性能、隐私保护和可定制的区块链解决方案。其强大的架构和丰富的功能使得企业能够在安全可信的环境中开展区块链应用&#xff0…

Excel筛选怎么用?6种基本用法帮你提高效率!

“我在使用Excel进行数据处理时,需要对某些数据进行筛选,但是不知道应该如何使用筛选功能,有没有比较简单的使用方法呀?” Excel中的筛选功能是数据处理和分析中的重要工具,能够帮助用户快速找到所需的数据。但是有很多…

YOLOv8改进 | EIoU、SIoU、WIoU、DIoU、FocusIoU等二十余种损失函数

一、本文介绍 这篇文章介绍了YOLOv8的重大改进,特别是在损失函数方面的创新。它不仅包括了多种IoU损失函数的改进和变体,如SIoU、WIoU、GIoU、DIoU、EIOU、CIoU,还融合了“Focus”思想,创造了一系列新的损失函数。这些组合形式的…

Taro安装及使用

安装及使用 安装​ Taro 项目基于 node,请确保已具备较新的 node 环境(>12.0.0),推荐使用 node 版本管理工具 nvm 来管理 node,这样不仅可以很方便地切换 node 版本,而且全局安装时候也不用加 sudo 了…

[解决] 问题:ImportError: cannot import name ‘Callable‘ from ‘collections‘

问题 我在运行yolov8的代码时,出现了ImportError: cannot import name Callable from collections的错误 原因 版本问题:以下collections的方法都在Python3.10版本后被取消了 ["Awaitable", "Coroutine", "AsyncIterable", "A…

(四)、基于 LangChain 实现大模型应用程序开发 | 基于知识库的个性化问答 (基本功能介绍)

⭐ 使用大语言模型构建一个能够回答关于给定文档和文档集合的问答系统是一种非常实用和有效的应用场景。与仅依赖模型预训练知识不同,这种方法可以进一步整合用户自有数据,实现更加个性化和专业的问答服务。 例如,我们可以收集某公司的内部文档、产品说明…

我理解的反射

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 我之前对反射的理解未必…

提取图像文本的 5 大 Python 库

引言 光学字符识别是一个古老但依然具有挑战性的问题,涉及从非结构化数据中(包括图像和PDF文档)检测和识别文本。它在银行、电子商务和社交媒体内容管理等领域具有广泛的应用。 但与数据科学中的每个主题一样,尝试学习如何解决OC…

光谱融合——Deep Spatio-spectral Attention Convolutional Neural Networks

Hyperspectral Image Super-Resolution via Deep Spatiospectral Attention Convolutional Neural Networks 简介 论文链接 对于高分辨率多光谱(高分辨率意味空间信息更好)图像,采用spatial attention机制进行空间信息的保留,对…

Vue+Swiper实现轮播图效果

效果展示 实现了自带切换按钮在图片外部实现了自定义的切换按钮 背景 在项目中使用到了轮播图,实现点击上一张下一张时实现循环显示,同时预览两个图片,并加以文字对图片的说明。 设计 使用 Swiper 插件,可以实现当前这个需求。…

[Kettle] 公式

公式是用来计算数据流中数据的表达式 公式可以是"AB"这样的简单计算,也可以是类似"if/then"复杂业务逻辑判断的表达式 数据源 2019年11月月考成绩(Kettle数据集16).xlshttps://download.csdn.net/download/Hudas/88553816?spm1001.2014.300…

二阶段提交

二阶段提交 二阶段提交(英语:Two-phase Commit)是指,为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种算法(Algorithm)。 二阶段过程 在两阶段提交过程中,主要分为了两种角色协调者&…

webpack快速上手之搭建cesium三维地球环境

前言 📫 大家好,我是南木元元,热衷分享有趣实用的文章,希望大家多多支持,一起进步! 🍅 个人主页:南木元元 目录 Cesium介绍 初始化一个Cesium地球 ​编辑 Webpack的使用 Webpac…

鼠标点击网页任何地方都显示光标闪烁输入状态

出现这种情况的原因 因为大概是用户无意中打开了浏览器无障碍模式中的使用文本光标浏览网页的功能。 对于Chrome浏览器而言就是这样的: 直接按F7关闭这个模式

谈谈系统性能调优中都需要考虑哪些因素

一、 什么是性能调优? 这个系统好慢、网站又打不开了,太卡了,又没响应了,相信大家都遇到过用户的这种抱怨,此时,说明我们的应用系统出现了性能问题,那么怎么办呢,首先想到的应该是优…

CNCC 2023 | 大模型全面革新推荐系统!产学界多位大咖精彩献言

随着人工智能领域的不断突破,大模型的潮流已然席卷而来。大模型一跃成为时代的新宠,展现出强大的通用性和泛化能力,为 AI 技术的应用进一步打开了想象空间。与此同时,推荐系统作为大规模机器学习算法应用较为成熟的方向之一&#…

腾讯混元模型

最近腾讯的混元大模型内测,我有幸申请到了一个名额。 身为一个程序员,我想大家最关注的一定是该模型的代码和类代码能力,因为这直接关系到这个模型能帮我们解决多少问题,节约多少时间,提高多少效率。 对此,我针对工作中可能会用到的几个点进行了详细的体验。 先说结论:腾讯混元…

工业基础类IFC—材质和纹理

在我们的 IFC技术交流群(788206534)里,经常会有人提问“如何学习 IFC文档或者其开发”的问题。对于这个问题,我一直没有机会做一个完整的回答,这次我认真回忆了自己关于IFC的学习经历,在此与大家分享。一是…

利用API连接抖音外卖与电商平台和营销系统,实现无代码开发的集成

利用API连接抖音外卖和电商平台 抖音来客,作为抖音生活服务商家经营平台,为商家提供一站式经营服务,其中包括入驻、上品、经营和履约等功能。商家可以通过API调用,实现电商平台和抖音外卖的连接,从而优化运营效率。例…