论文笔记:通用世界模型WorldDreamer

整理了WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens 论文的阅读笔记

  • 背景
  • 模型
  • 实验

背景

在这里插入图片描述
  现有的世界模型仅限于游戏或驾驶等特定场景,限制了它们捕捉一般世界动态环境复杂性的能力。针对这一挑战,本文提出了WorldDreamer,这是一个开创性的世界模型,旨在培养对一般世界物理和运动的全面理解,这大大增强了视频生成的能力。 通过把视觉输入映射到离散标记并预测被屏蔽的标记,worlddream将世界建模框架为无监督的视觉序列建模挑战。在此过程中,结合了多模态提示来促进世界模型内的交互。实验表明,WorldDreamer 擅长生成不同场景的视频,包括自然场景和驾驶环境。

模型

  WorldDreamer的整体框架如图2所示。初始阶段包括使用视觉标记器将视觉信号(即图像和视频)编码为离散的标记。这些令牌在被STPT处理之前经过精心设计的屏蔽策略。同时,文本信号和动作信号分别编码到嵌入中,作为多模态提示。STPT 参与预测屏蔽视觉标记的关键任务,然后由视觉解码器对其进行解码,从而促进多个上下文中的视频生成和编辑。
在这里插入图片描述  为了训练 WorldDreamer,文中构建了 Visual-Text-Action 数据的三元组,其中训练监督仅涉及预测屏蔽的视觉标记,而无需任何额外的监督信号。WorldDreamer还支持没有文本或动作数据的训练,这不仅降低了数据收集的难度,而且使WorldDreamer能够学习无条件或单条件视频生成。在推理时,WorldDreamer可以完成各种视频生成和视频编辑任务:
  图像到视频,仅需要单个图像输入,并将剩余帧视为被屏蔽。WorldDreamer 还可以根据单个图像条件和文本条件预测未来帧。
  视频风格化,可以输入视频片段,并随机屏蔽某些像素。WorldDreamer 可以根据两种输入语言改变视频风格,例如创建秋季主题效果。
  文本到视频,提供语言输入允许 WorldDreamer 预测相应的视频,假设所有视觉标记都被屏蔽。
  视频修复,可以输入视频片段,并手动屏蔽感兴趣区域。WorldDreamer 可以根据输入语言和未屏蔽的视觉信号填充屏蔽部分。
  动作到视频,输入驾驶场景的初始帧以及未来的驾驶命令可以让 WorldDreamer 预测未来的帧。

实验

  文中进行了全面的视觉实验,展示了 Worlddreamer 在不同场景下实现视频生成和视频编辑的能力,以证明 WorldDreamer 对一般世界的一般视觉动态有了深刻的理解。
  图像到视频 WorldDreamer 擅长在各种场景中生成高保真图像到视频。如图 5 所示,根据初始图像输入,Worlddreamer 能够生成高质量的电影景观视频。
在这里插入图片描述
  文本到视频 图 6 展示了 WorldDreamer 在从跨各种风格范式的文本生成视频方面的出色熟练程度。
在这里插入图片描述  视频修复 如图 7 所示,WorldDreamer 展现出卓越的高质量视频修复能力。
在这里插入图片描述
  视频风格化 图 8 展示了 WorldDreamer 在提供高质量视频风格化方面表现出色。通过提供随机生成的视觉令牌蒙版和指示所需修改的风格提示,WorldDreamer 令人信服地转换原始视频,在风格化过程中实现真正逼真的结果。在这里插入图片描述  从动作到视频 WorldDreamer 展示了根据自动驾驶背景下的动作生成视频的能力。如图9所示,给定相同的初始帧和不同的驾驶动作,WorldDreamer可以根据不同的驾驶动作(例如控制汽车左转或右转)生成不同的未来视频。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/901166.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【若依笔记】-- 精简若依项目只保留系统管理

环境:最近项目需要计划使用若依来开发软件,使用若依有一个问题,若依代码框架还是比较冗余,不够精简,还有一点是若依Security权限校验,对于实现一对多的前台,比较麻烦,我这边的业务是…

大一物联网要不要转专业,转不了该怎么办?

有幸在2014年,踩中了物联网的风口,坏消息,牛马的我,一口汤都没喝上。 依稀记得,当时市场部老大,带我去上海参加电子展会,印象最深的,一些物联网云平台,靠着一份精美PPT&a…

【Python爬虫系列】_031.Scrapy_模拟登陆中间件

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)教程合集 👈👈…

接口测试(八)jmeter——参数化(CSV Data Set Config)

一、CSV Data Set Config 需求:批量注册5个用户,从CSV文件导入用户数据 1. 【线程组】–>【添加】–>【配置元件】–>【CSV Data Set Config】 2. 【CSV数据文件设置】设置如下 3. 设置线程数为5 4. 运行后查看响应结果

Linux 进程概念

目录 冯诺依曼体系结构(了解) 周边知识 操作系统 如何管理 解释打印 ★库函数 ★系统调用 进程 概念 PCB 结构示意图 系统调用 监控脚本 gitpid / gitppid 解释样例 chdir /proc 解释样例 运行起来后删除磁盘中小体积的可执行程序 …

RHCSA第二次作业

4、将整个 /etc 目录下的文件全部打包并用 gzip 压缩成/back/etcback.tar.gz 5、使当前用户永久生效的命令别名:写一个命令命为hello,实现的功能为每输入一次hello命令,就有hello,everyone写入文件/file.txt中。 6、创建mygroup组群&#xff…

IDEA关联Tomcat——最新版本IDEA 2024

1.链接Tomcat到IDEA上 添加Tomcat到IDEA上有两种方式: 第一种: (1)首先,来到欢迎界面,找到左侧的Customize选项 (2)然后找到Build、Execution、Deployment选项 (3&am…

ruoyi域名跳转缓存冲突问题(解决办法修改:session名修改session的JSESSIONID名称)

【版权所有,文章允许转载,但须以链接方式注明源地址,否则追究法律责任】【创作不易,点个赞就是对我最大的支持】 前言 仅作为学习笔记,供大家参考 总结的不错的话,记得点赞收藏关注哦! 目录 前…

Java 输入与输出(I/O)之字节流、字符流与转换流

Java 输入/输出流(Input/Output,简称I/O)是Java语言用于读写数据的API,它提供了一系列类和接口,用于读取和写入各种类型的数据信息。 I/O流按数据单元(粒度大小)可分为字节流(以字节…

什么样的JSON编辑器才好用

简介 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也便于机器解析和生成。随着互联网和应用程序的快速发展,JSON已经成为数据传输和存储的主要格式之一。在处理和编辑JSON数据…

太速科技-212-RCP-601 CPCI刀片计算机

RCP-601 CPCI刀片计算机 一、产品简介 RCP-601是一款基于Intel i7双核四线程的高性能CPCI刀片式计算机,同时,将CPCI产品的欧卡结构及其可靠性、可维护性、可管理性与计算机的抗振动、抗冲击、抗宽温环境急剧变化等恶劣环境特性进行融合。产品特别…

unity开发之可视化制作动画

录制动画 1)打开录制动画页面(或者按快捷键ctrl6) 2)选中需要录制动画的对象 3)创建动画列表,注意现在还没有录制动画,我这里创建了开门和关门动画列表 4)选择需要录制动画的对象的相…

python爬虫实战案例——抓取B站视频,不同清晰度抓取,实现音视频合并,超详细!(内含完整代码)

文章目录 1、任务目标2、网页分析3、代码编写 1、任务目标 目标网站:B站视频(https://www.bilibili.com/video/BV1se41117WP/?vd_sourcee8e376ccbc5aa4cfd88e6a7917adfd1a),用于本文测验 要求:抓取该网址下的视频&…

大数据-190 Elasticsearch - ELK 日志分析实战 - 配置启动 Filebeat Logstash

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

uniapp:上拉加载更多、下拉刷新、页面滚动到指定位置

提醒 本文实例是使用uniapp进行开发演示的。 一、需求场景 在开发商品(SKU)列表页面时,通常有三个需求: 页面下拉刷新,第一页展示最新数据;上拉加载更多数据;列表页面可以滚动到指定位置&#x…

如何为工业未来赋能?通过CodeMeter为工业企业开辟工业自动化安全与灵活性之道

在现代工业自动化领域,数字化转型已经成为不可逆的趋势。然而,要将新一代的自动化软件与传统设备集成,企业面临的不仅是技术上的复杂性,更是如何有效保护宝贵的知识产权并实现灵活管理的严峻挑战。菲尼克斯电气(Phoeni…

HTML5教程(一)- 网页与开发工具

1. 什么是网页 网页 基于浏览器阅读的应用程序,是数据(文本、图像、视频、声音、链接等)展示的载体常见的是以 .html 或 .htm 结尾的文件 网站 使用 HTML 等制作的用于展示特定内容相关的网页集合。 2. 网页的组成 浏览器 代替用户向服务…

【云原生】Kubernets1.29部署StorageClass-NFS作为存储类,动态创建pvc(已存在NFS服务端)

文章目录 在写redis集群搭建的时候,有提到过使用nfs做storageclass,那时候kubernetes是1.20版本,https://dongweizhen.blog.csdn.net/article/details/130651727 现在使用的是kubernetes 1.29版本,根据之前的修改方式并未生效,反而提示:Error: invalid argument "Re…

C语言 动态数据结构的C语言实现单向链表-2

建立一个单向链表 在单向链表中查找节点---查找尾节点 在单向链表中查找节点 --- 查找第 n 个节点 向单向链表中插入一个节点 向单向链表的尾部插入一个节点 向单向链表中某节点后插入一个节点 向单向链表中插入一个节点 删除单向链表中的某一节点 链表 vs 数组 动态数据结构

C++核心编程和桌面应用开发 第十五天(deque/stack/queue)

目录 1.deque容器 1.1构造和赋值(同vector类似) 1.2大小操作 1.3插入和删除 1.5数据存取 1.6排序(升序) 2.stack容器 3.queue容器 1.deque容器 1.1构造和赋值(同vector类似) deque内部工作原理&a…