Pseudo Multi-Camera Editing 数据集:通过常规视频生成的伪标记多摄像机推荐数据集,显著提升模型在未知领域的准确性。

2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助,显著提高了模型在目标领域的准确性,实现了68%的相对改进。

一、研究背景:

在电影、电视和其他媒体制作中,多摄像机系统的作用不可或缺。选择合适的摄像机视角对于提高制作质量和满足观众偏好至关重要。基于学习的视角推荐框架可以帮助专业人士做出决策,但这些框架在训练领域之外往往表现不佳,而标记好的多摄像机视角推荐数据集的稀缺加剧了这一问题。

目前遇到困难和挑战:

1、多摄像机视角推荐模型在未见过的领域中泛化能力差,导致准确率显著下降。

2、现有的多摄像机编辑数据集(如TVMCE)仅限于特定场景和类型,无法覆盖更广泛的领域。

3、收集相同领域的数据需要多个同步摄像机捕捉同一事件,且需要专业的电影制作专家进行标记,这在实际操作中非常困难。

数据集地址:多摄像头视图推荐数据集|模型泛化数据集

二、让我们一起来看一下Pseudo Multi-Camera Editing数据集:

Pseudo Multi-Camera Editing Dataset:通过将常规视频转换为伪标记的多摄像机视角推荐数据集,以解决标记数据稀缺的问题。研究团队利用视频编辑中的镜头转换来模拟摄像机切换,通过聚类镜头来模拟不同的摄像机,并选择每个“伪”摄像机中最相似的镜头作为候选镜头,与真实镜头一起生成伪标记数据。

数据集构建:

包括镜头检测、聚类生成伪摄像机标签、以及从每个伪摄像机中选择候选镜头。使用ResNet50预训练模型提取图像特征,并计算镜头间的视觉相似度。

数据集特点:

1、利用常规视频生成伪标记数据,无需专业标记。

2、通过聚类模拟多摄像机系统,提高模型在未知领域的泛化能力。

3、实现了68%的相对准确率提升。

研究者可以使用该数据集训练和测试多摄像机视角推荐模型。通过对比真实镜头和候选镜头的特征,模型可以学习在不同场景下选择合适的摄像机视角。

基准测试 :

在TVMCE数据集上,与现有的Temporal and Contextual Transformer (TC Transformer)模型相比,提出的框架在域内准确率上提高了11%。在未知领域(如情景喜剧场景)中,使用伪数据集训练的模型表现出显著更好的泛化能力。

(a) 在特定域的标记多相机编辑数据集上训练的模型对前所未见的域的泛化效果不佳,准确性显着下降。(b) 我们提出的方法利用常规视频为目标域生成伪标记数据集并提高模型的准确性

模型架构。(a) 过去的编码器将所有过去的特征编码为单个特征向量。然后,应用对比损失以最大化过去特征和真实特征之间的余弦相似性。(b) 特征提取器通过向图像特征添加位置嵌入来对帧进行编码。

伪数据集生成管道。(a) 在输入视频中检测到镜头,以及 (b) 分组。同一群集中的快照被视为来自同一“伪”摄像机。(c) 选择镜头作为锚点。后续镜头是地面实况,而其他每个 N-1 伪相机中最相似的镜头被选为候选镜头。

与基线的比较。多摄像头视图推荐模型对前所未见的领域的泛化效果不佳。ID:域内,OOD:域外。

视频场景的影响。在与测试集不同的场景中训练的模型准确率较低。绿色和红色表示相同和不同。

视频场景和类型(情景喜剧)的影响。更显著的域差异(视频场景 + 视频类型)会严重影响准确性。来自广泛视频的伪数据集可以覆盖目标视频场景和类型,从而获得更高的准确性。绿色、橙色和红色表示相同、有遮盖和不同。

三、让我们一起展望Pseudo Multi-Camera Editing数据集应用

比如,我是一名电影剪辑师。

我日常的工作:坐在剪辑室里,我得盯着屏幕,看那些复杂的实验室场景,或者是太空船的驾驶舱。每个摄像机都捕捉了不同的角度,有的可能是全景,有的可能是特写,还有的可能聚焦在某个重要的仪器上。我得决定什么时候切换到哪个镜头,才能让观众感受到那种紧张刺激的气氛,同时又不能错过任何重要的细节。这就像是在做一道复杂的数学题,你得把所有的元素都考虑到,还得保证最后的结果让观众满意。

现在有了这个Pseudo Multi-Camera Editing Dataset数据集训练的系统,我的眼睛得到更好的休息。

比如,我在剪辑一个太空船即将进入黑洞的紧张场景。这个系统就能帮我分析出,哪个镜头最能展现太空船的动态,哪个镜头最能捕捉到宇航员脸上的紧张表情。它会告诉我,现在可以切换到一个全景镜头,让观众感受到太空船在黑洞面前的渺小;然后,再切换到宇航员的特写,因为他的眼神中透露出坚定和决心。

这个系统就像是我的智能剪辑助手,它通过学习大量的视频资料,已经知道在这种科技电影中,哪些镜头最能打动人心。比如,在剪辑一个科学家在实验室里做实验的场景时,它会建议我切换到一个特写镜头,聚焦在科学家手中的那个即将引爆的装置上,因为那个装置的每一个细节都可能关系到整个实验的成败。

而且,这个系统还能帮我处理那些特别复杂的特效场景。比如,太空船在太空中爆炸的场景,它能够分析出哪个镜头最能捕捉到爆炸的震撼效果,哪个切换最能带动观众的情绪。这样,我就可以把更多的精力放在故事的叙述上,而不是纠结于每个镜头的选择。

有了Pseudo Multi-Camera Editing Dataset数据集训练的系统,让我在剪辑科技电影时,能够更加专注于创意和故事的讲述,而不用担心错过那些重要的细节。它帮我捕捉到每一个精彩的瞬间,让我的工作变得更加高效和有趣。

来吧,让我们走进多摄像头视图推荐数据集|模型泛化数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/903059.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

练习LabVIEW第二十三题

学习目标: 刚学了LabVIEW,在网上找了些题,练习一下LabVIEW,有不对不好不足的地方欢迎指正! 第二十三题: 建立一个枚举控件,其内容为张三、李四、王五共三位先生,要求当枚举控件显…

Spring Boot 实现文件分片上传和下载

文章目录 一、原理分析1.1 文件分片1.2 断点续传和断点下载1.2 文件分片下载的 HTTP 参数 二、文件上传功能实现2.1 客户端(前端)2.2 服务端 三、文件下载功能实现3.1 客户端(前端)3.2 服务端 四、功能测试4.1 文件上传功能测试4.2 文件下载功能实现 参考资料 完整案例代码&…

分类预测|基于WOA鲸鱼优化K近邻KNN的数据分类预测Matlab程序 多特征输入多类别输出GWO-KNN

文章目录 一、基本原理原理流程总结 二、实验结果三、核心代码四、代码获取五、总结 一、基本原理 鲸鱼优化算法(WOA,Whale Optimization Algorithm)是一种模拟座头鲸捕猎行为的启发式优化算法,适用于解决各种优化问题。在K近邻&…

深度探索:超实用阿里云应用之低功耗模组AT开发示例

今天我们讲解一款低功耗4G全网通模组作为例子, 基于Air780EP模组AT开发的阿里云应用教程, 本文同样适用于以下型号: Air700ECQ/Air700EAQ/Air700EMQ Air780EQ/Air780EPA/Air780EPT/Air780EPS Air780E/Air780EX/Air724UG… 1、相关准备工作 …

大白话讲解分布式事务-SEATA事务四种模式(内含demo)

因为这里主要是讲解分布式事务,关于什么是事务,以及事务的特性,单个事务的使用方式,以及在Spring框架下,事务的传播方式,这里就不再赘述了。但是我这里要补充一点就是,一提到事务大家脑子里第一…

假如浙江与福建合并为“浙福省”

在中国,很多省份之间的关系颇有“渊源”,例如河南与河北、湖南与湖北、广东与广西等等,他们因一山或一湖之隔,地域相近、文化相通。 但有这么两个省份,省名没有共通之处,文化上也有诸多不同,但…

[简易版] 自动化脚本

前言 uniapp cli项目中没办法自动化打开微信开发者工具,需要手动打开比较繁琐,故此自动化脚本就诞生啦~ 实现 const spawn require("cross-spawn"); const chalk require("picocolors"); const dayjs require("dayjs&quo…

7.使用Redis进行秒杀优化

目录 1. 优化思路 总结之前实现的秒杀过程 下单流程 2. 使用Redis完成秒杀资格判断和库存 0. Redis中数据类型的选用 1.将优惠券信息保存到Redis中 2.基于Lua脚本,判断秒杀库存、一人一单,决定用户是否抢购成功 3. 开启新协程,处理数…

MongoDB-Plus

MongoDB-Plus是一款功能强大的数据库工具,它基于MongoDB,提供了更丰富的功能和更便捷的操作方式。以下是一篇关于MongoDB-Plus轻松上手的详细指南,旨在帮助初学者快速掌握其安装、配置和基础操作。 一、MongoDB-Plus概述 MongoDB是一款由C编…

鸿蒙next之导航组件跳转携带参数

官方文档推荐使用导航组件的形式进行页面管理,官方文档看了半天也没搞明白,查了各种文档才弄清楚。以下是具体实现方法: 在src/main/resources/base/profile下新建router_map.json文件 里边存放的是导航组件 {"routerMap" : [{&q…

鸿蒙API12 端云一体化开发——云函数篇

大家好,我是学徒小z,我们接着上次的端云一体化继续讲解,今天来说说云函数怎么创建和调用 文章目录 云函数1. 入口方法2. 编写云函数3. 进行云端测试4. 在本地端侧调用云函数5. 云函数传参6. 环境变量 云函数 1. 入口方法 在CloudProgram中…

软硬件开发面试问题大汇总篇——针对非常规八股问题的提问与应答(代码规范与生态管理)

软硬件开发,对于编码规范、生态管理等等综合问题的考察尤为重要。 阐述下环形缓冲区的用途 环形缓冲区(Ring Buffer)是一种固定大小的数据结构,常用于实现数据的流式传输或临时存储。在环形缓冲区中,当到达缓冲区的末尾…

Java Lock CyclicBarrier 总结

前言 相关系列 《Java & Lock & 目录》(持续更新)《Java & Lock & CyclicBarrier & 源码》(学习过程/多有漏误/仅作参考/不再更新)《Java & Lock & CyclicBarrier & 总结》(学习总结…

什么是排列树?

一、排列树的定义 排列树就是一个能表示全排列的树形结构。全排列咱们都学过,就是所有可能的排列。 当问题的解是n个元素的某个排列时,其解空间(全部可能解构成的集合)就是n个元素的全排列,称为排列树。 以3个元素{…

1 环境配置、创建功能包、编译、Cmake文件及package文件学习笔记

1 基本结构 放张 赵虚左老师的pdf截图 2 环境配置 //每次都需配置 . install/setup.bash//或者一次配置echo "source /path/to/your/workspace_name/install/setup.bash" >> ~/.bashrcsource ~/.bashrc3 创建功能包 ros2 pkg create 包名--build-type 构建类…

ClickHouse 5节点集群安装

ClickHouse 5节点集群安装 在此架构中,配置了五台服务器。其中两个用于托管数据副本。其他三台服务器用于协调数据的复制。在此示例中,我们将创建一个数据库和表,将使用 ReplicatedMergeTree 表引擎在两个数据节点之间复制该数据库和表。 官…

简单易用的Android主线程耗时检测类 MainThreadMonitor

适用场景 debug 本地测试 文章目录 代码类 MainThreadMonitor.java使用方式 Application的attachBaseContextlog输出示例 代码类 MainThreadMonitor.java public class MainThreadMonitor {private static final String TAG "MainThreadMonitor";private static Sc…

uniapp的IOS证书申请(测试和正式环境)及UDID配置流程

1.说明 本教程只提供uniapp在ios端的证书文件申请(包含正式环境和开发环境)、UDID配置说明,请勿用文档中的账号和其他隐私数据进行测试,请勿侵权! 2.申请前准备 证书生成网站:苹果应用上传、解析&#x…

iOS Block 详解(Object-C)

Block 是苹果公司较晚推出的一个语法,与很多语法的闭包差不多意思 一:Block声明 PS:很多人学不好Block,大概率是被它的声明写法给吓到了,写法确实有点奇怪 返回值类型(^block变量名)(参数列表) 例如: int(^personBlock)(NSString *,int) 返回值类型(^block变量名)(参数列表…

iOS 18.2开发者预览版 Beta 1版本发布,欧盟允许卸载应用商店

苹果今天为开发人员推送了iOS 18.2开发者预览版 Beta 1版本 更新(内部版本号:22C5109p),本次更新距离上次发布 Beta / RC 间隔 2 天。该版本仅适用于支持Apple Intelligence的设备,包括iPhone 15 Pro系列和iPhone 16系…