CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。

CineMaster是一种 3D 感知且可控的文本到视频生成方法允许用户在 3D 空间中联合操纵物体和相机,以创作高质量的电影视频。

相关链接

  • 论文:cinemaster-dev.github.io

论文介绍

CineMaster是一种用于 3D 感知和可控文本到视频生成的新型框架。目标是让用户拥有与专业电影导演相当的可控性:在场景中精确放置物体、在 3D 空间中灵活操纵物体和相机,以及对渲染帧进行直观的布局控制。

CineMaster分两个阶段运行:

  • 第一阶段:设计了一个交互式工作流程,允许用户通过定位对象边界框和定义 3D 空间内的相机运动来直观地构建 3D 感知条件信号。

  • 第二阶段:这些控制信号(包括渲染的深度图、相机轨迹和对象类别标签)作为文本到视频扩散模型的指导,确保生成用户想要的视频内容。

此外,为了克服具有 3D 框和相机姿势注释的野生数据集的稀缺性,论文精心建立了一个自动化数据注释管道,从大规模视频数据中提取 3D 边界框和相机轨迹作为控制信号。大量定性和定量实验表明,CineMaster 明显优于现有方法,并实现了卓越的 3D 感知文本到视频生成。

物体和相机运动控制演示

物体运动控制演示

相机运动控制演示

它是如何工作的?

CineMaster是一个框架,它使用户能够在 3D 空间中操纵对象和相机以生成文本到视频。CineMaster 包含两个阶段。首先,我们提出了一个交互式工作流程,使用户能够以 3D 原生方式直观地操纵对象和相机。然后,控制信号从 3D 引擎渲染并输入到文本到视频的扩散模型中,指导用户生成想要的视频内容。

模型设计

网络架构概述。 论文设计了一个语义布局控制网,它由一个语义注入器和一个基于 DiT 的控制网组成。语义注入器融合了 3D 空间布局和类标签条件。基于 DiT 的控制网进一步表示融合的特征并添加到基础模型的隐藏状态。同时,我们通过相机适配器注入相机轨迹,以实现对物体运动和相机运动的联合控制。

数据集标记管道

数据集标记管道。 论文提出了一个数据标记管道,用于从视频中提取 3D 边界框、类标签和相机姿势。管道包括四个步骤:

  1. 实例分割:从视频前景中获取实例分割结果。

  2. 深度估计:使用 DepthAnything V2 生成度量深度图。

  3. 3D 点云和框计算:为每个实体识别具有最大掩码的帧,并通过逆投影计算每个实体的 3D 点云。然后,使用最小体积法计算每个实体的 3D 边界框。

  4. 实体跟踪和 3D 框调整:访问每个实体的点跟踪结果并计算每帧的 3D 边界框。最后,将整个 3D 场景投影到深度图中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978099.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux红帽:RHCSA认证知识讲解(四)修改远程配置文件,取消root禁用,便于使用root身份远程

Linux红帽:RHCSA认证知识讲解(四)修改远程配置文件,取消root禁用,便于使用root身份远程 前言一、远程连接的用途和原因二、通过 ssh 远程登陆系统三、默认限制及解决方案(一)非常规方法一&#…

OpenEuler学习笔记(三十五):搭建代码托管服务器

以下是主流的代码托管软件分类及推荐,涵盖自托管和云端方案,您可根据团队规模、功能需求及资源情况选择: 一、自托管代码托管平台(可私有部署) 1. GitLab 简介: 功能全面的 DevOps 平台,支持代码托管、C…

Rk3568驱动开发_点亮led灯(手动挡)_5

1.MMU简介 完成虚拟空间到物理空间的映射 内存保护设立存储器的访问权限,设置虚拟存储空间的缓冲特性 stm32点灯可以直接操作寄存器,但是linux点灯不能直接访问寄存器,linux会使能mmu linux中操作的都是虚拟地址,要想访问物理地…

免费使用 DeepSeek API 教程及资源汇总

免费使用 DeepSeek API 教程及资源汇总 一、DeepSeek API 资源汇总1.1 火山引擎1.2 百度千帆1.3 阿里百炼1.4 腾讯云 二、其他平台2.1 华为云2.2 硅基流动 三、总结 DeepSeek-R1 作为 2025 年初发布的推理大模型,凭借其卓越的逻辑推理能力和成本优势,迅速…

QML Text部件的使用

一个简单的Text代码 Text {id: txttext: qsTr("文本123abc\n数量的")color: "blue" } 效果: Text一般用于显示文本,例如可以给Button或者Rectangle等部件提供文本的显示; 1.文本常用 contentWidth 文本的宽度…

《Android-RecyclerView实现封面滑动到指定位置放大》---ViewPager封面指示器

一、实现效果 二、关键代码 1、自定义:LinearLayoutManager 指定位置放大item import android.content.Context; import android.util.DisplayMetrics; import android.view.View; import android.view.ViewGroup;import androidx.recyclerview.widget.LinearLayoutManager;…

【Bug】natten:安装报错(临近注意力机制的高效cuda内核实现)

正常安装natten报错 pip install natten 报错 可以尝试使用以下网站进行安装 https://shi-labs.com/natten/ 可以根据自己的cuda与pytorch版本进行安装 之间复制命令即可,不需要进行任何修改

智能合约安全 | 合约无效化攻击

目录: 智能合约安全 合约无效化攻击 合约自毁函数 selfdestruct 攻击实现 漏洞防御 总结 智能合约安全 合约无效化攻击 合约无效化攻击类同于web安全中的逻辑漏洞中的一种 我们这里拿一个典型的例子来讲解 有这样一份智能合约, 每个人可以向其中发送1 eth 第七个…

Linux:(3)

一:Linux和Linux互传(压缩包) scp:Linux scp 命令用于 Linux 之间复制文件和目录。 scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。 scp 是加密的,rcp 是不加密的,scp 是…

qt-C++笔记之QtCreator新建项目即Create Project所提供模板的逐个尝试

qt-C笔记之QtCreator新建项目即Create Project所提供模板的逐个尝试 code review! 文章目录 qt-C笔记之QtCreator新建项目即Create Project所提供模板的逐个尝试1.Application(Qt):Qt Widgets Application1.1.qmake版本1.2.cmake版本 2.Application(Qt):Qt Console Applicati…

学习threejs,Materials常量汇总

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️Materials常量汇总1.1.1 面…

SOC-ATF 安全启动BL1流程分析(1)

一、ATF 源码下载链接 1. ARM Trusted Firmware (ATF) 官方 GitHub 仓库 GitHub 地址: https://github.com/ARM-software/arm-trusted-firmware 这是 ATF 的官方源码仓库,包含最新的代码、文档和示例。 下载方式: 使用 Git 克隆仓库: git…

AI如何改变传统工厂的生产模式?

随着第四次工业革命的浪潮席卷全球,制造业的数字化转型成为企业在竞争中脱颖而出的关键。过去,传统制造业往往依赖于大量的人工操作和低效率的管理流程,而如今,智能化、自动化、数据化已经成为未来制造业的必由之路。从车间到云端…

Deepseek开源周第三天:DeepGEMM发布

Deepseek开源周第三天:DeepGEMM发布 前言 上周deepseek宣布,将在本周陆续发布五个开源项目,这些库已经在生产环境中经过了记录、部署和实战测试。 今天是deepseek开源周的第三天,deepseek发布了一个名为 DeepGEMM 的项目&#x…

【组态PLC】基于三菱西门子S7-200PLC和组态王液料混合系统组态设计【含PLC组态源码 M016期】

控制要求 总体控制要求:如面板图所示,本装置为三种液体混合模拟装置,由液面传感器SL1、SL2、SL3,液体A、B、C阀门与混合液阀门由电磁阀YV1、YV2、YV3、YV4,搅匀电机M,加热器H,温度传感器T组成。…

Qt Creator + CMake 构建教程

此教程基于: Qt 6.7.4Qt Creator 15.0.1CMake 3.26.4 Qt 6 以下的版本使用 CMake 构建可能会存在一些问题. 目录 新建窗体工程更新翻译添加资源软件部署(Deploy) 此教程描述了如何一步步在 Qt Creator 中使用 CMake 构建应用程序工程. 涉及 新建窗体工程, 更新翻译, 添加资源, …

内网渗透测试-Vulnerable Docker靶场

靶场来源: Vulnerable Docker: 1 ~ VulnHub 描述:Down By The Docker 有没有想过在容器中玩 docker 错误配置、权限提升等? 下载此 VM,拿出您的渗透测试帽并开始使用 我们有 2 种模式: - HARD:这需要您将 d…

【JavaEE】SpringMVC获取HTTP中的元素

目录 一、获取URL中的参数PathVariable二、上传⽂件RequestPart三、获取Cookie/Session3.1 HttpServletRequest和 HttpServletResponse3.2 获取Cookie3.2.1 使用HttpServletRequest3.2.2 使用注解CookieValue 3.3 设置session3.4 获取session3.4.1 使用HttpServletRequest3.4.2…

【构建工具】Gradle Kotlin DSL中的大小写陷阱:BuildConfigField

在Android开发当中,BuildConfig是一个非常有用的功能,它允许我们在构建过程中定义常量,并在运行时使用它们。But!!当我们从传统的Groovy DSL迁移到Kotlin DSL时或者被Android Studio坑的时候,有一些细微的差…

递归、搜索与回溯第二讲:二叉树中的深搜 穷举vs暴搜vs深搜vs回溯vs剪枝

递归、搜索与回溯第二讲:二叉树中的深搜 && 穷举vs暴搜vs深搜vs回溯vs剪枝 1.计算布尔二叉树的值2.求根节点到叶结点数字之和3.二叉树剪枝4.验证二叉搜索树5.二叉搜索树中第K小的元素6.二叉树的所有路径7.全排列8.子集 1.计算布尔二叉树的值 2.求根节点到叶…