现实转虚拟:Video2Game引领3D互动体验

在当今数字化时代,虚拟环境的创建对于游戏开发、虚拟现实应用和自动驾驶模拟器等多个领域至关重要。然而,传统的虚拟环境创建过程不仅复杂而且成本高昂,通常需要专业人员和专业软件开发工具的参与。例如,著名的《侠盗猎车手V》以其精细的细节环境而闻名,是开发成本最高的视频游戏之一,预算超过2.65亿美元,主要用于资产创建。为了简化这一过程,研究者们一直在探索直接从现实世界创建环境的方法,如摄影测量技术。但这些方法大多限于创建对象资产,并需要大量的后期处理。

本文介绍了一种名为Video2Game的新颖方法,Video2Game的创新之处体现在它能够将普通视频自动转换成逼真且交互式的虚拟环境。这一过程无需复杂的手动建模,大大降低了创建高质量虚拟环境的门槛。系统的核心是三个关键组件的结合:神经辐射场(NeRF)模块、网格模块和物理模块。NeRF模块负责捕捉场景的几何结构和视觉外观,而网格模块则将NeRF的详细信息转化为适合游戏引擎的网格表示,这样既提升了渲染效率,又保持了画面质量。物理模块则模拟了对象间的交互和物理动力学,为虚拟环境增添了真实感。

Video2Game系统的工作流程和示例交互。图片上方是系统将输入视频转换为交互式环境的概述,下方展示了用户可以执行的不同交互操作,如收集硬币、破坏物体、跑步、站立、驾驶和撞车等

Figure 1 展示了Video2Game技术的核心魅力:将任意场景的视频输入后,系统能够自动将其转换成一个实时、交互式、逼真且浏览器兼容的环境。在这个环境中,用户可以自由地探索,与场景中的对象进行互动。无论是收集硬币、破坏物体,还是驾驶和撞击汽车,这些丰富的交互体验都通过Video2Game变得可能。例如,用户可以投掷球击中花瓶,使其掉落,或者在不同视角下观察场景并与之互动。这种能力不仅为游戏开发提供了便利,也为虚拟现实应用和机器人模拟等领域开辟了新的可能性。通过Video2Game,复杂的现实世界场景得以数字化,并以一种直观、互动的方式呈现给用户,极大地扩展了虚拟体验的边界。

Video2Game的优势在于它能够实现实时渲染和物理模拟,用户可以在浏览器中以高帧率(超过100 FPS)流畅地探索和与虚拟环境互动。这种实时性对于游戏和模拟器的体验至关重要。系统还能够处理大规模户外场景,这在以往的技术中很难实现。Video2Game通过将场景分解为多个块,并在每个块上应用Instant-NGP,解决了大规模场景的渲染问题。

系统的另一个显著优势是它的通用性和兼容性。Video2Game不仅能够创建游戏环境,还能够用于机器人模拟等其他领域,展示了其广泛的应用潜力。它还能够与现有的游戏引擎如Blender和Unreal Engine集成,开发者可以利用现有的工具和工作流程,快速地将Video2Game生成的内容转化为可交互的3D体验。

Video2Game的自动化程度高,它通过一个精心设计的流程,将视频转换为可交互的数字副本,大大减少了传统3D建模和环境创建所需的人工劳动。这种自动化不仅提高了效率,也为非专业人士提供了创造虚拟环境的可能性。

Video2Game:创新的视频转游戏环境

系统的目标是构建一个可交互和可操作的数字孪生体,它不仅可以在视觉上逼真地呈现场景,还能模拟物理动作,如导航、碰撞和操纵等。为了实现这一目标,Video2Game采用了一种组合隐式-显式的3D表示方法,这种方法对于传感器模拟和物理模拟都是有效和高效的。

为了捕捉大规模、无界场景的几何和视觉信息,研究者们提出了一个增强型的NeRF模型。这个模型通过使用Instant-NGP作为基础,能够有效地渲染出新视角下的高质量图像。

Video2Game的高级概述。给定单个视频的多个姿势图像作为输入,首先构建一个大规模的NeRF模型,然后将其转换为具有相应刚体动力学的网格表示,以启用交互。使用UV映射的神经纹理,既具有表现力,又与游戏引擎兼容

Figure 2 提供了Video2Game工作流程的全面概览。该过程从单一视频中获取多个姿态图像作为输入,首先构建一个大规模的NeRF模型,这个模型不仅真实感强,而且具有高质量的表面几何结构。接着,将NeRF模型转换成具有相应刚体动力学的网格表示,以实现交互功能。利用UV映射的神经纹理,这种纹理既富有表现力又与游戏引擎兼容。最终,我们得到了一个交互式虚拟环境,其中的虚拟角色可以与之互动,能够响应用户控制,并从新的摄像机视角提供高分辨率的渲染效果,所有这些都在实时完成。这一流程不仅提高了渲染效率,还保证了用户在不同视角下都能获得逼真的交互体验。

Instant-NGP作为NeRF的一个变体,通过结合空间哈希编码的体素和神经网络来表示辐射场。这种表示方法能够对场景中的每个点进行颜色和密度的预测,为后续的渲染和几何优化提供了基础。为了提高几何质量,系统利用单目深度估计器来预测场景深度,并将其与NeRF模型的渲染深度进行比较和优化。通过预测3D点的表面法线,增强了场景的视觉真实感。

NeRF模型进一步预测了每个采样点的语义标签,帮助系统理解场景中的不同对象。同时,采用了正则化技术来减少场景中的不稳定性,例如通过密度的指数衰减惩罚来减少浮动物。对于大型场景,系统采用阻断技术,将场景分割成多个块,每块由一个单独的Instant-NGP模型处理。这种策略不仅提高了渲染效率,还确保了场景细节的精细捕捉。

为了将NeRF模型的渲染效率提高到适合实时游戏引擎的水平,研究者们开发了一种NeRF烘焙技术,将NeRF模型转换为网格表示。网格模型由顶点、面和UV神经纹理图组成。通过在NeRF密度场中使用Marching Cubes算法来获取初始网格拓扑结构,并通过一系列后处理步骤来优化网格,使其更适合实时渲染。使用可微分渲染器来渲染网格,通过将网格的UV坐标和采样的纹理特征输入到定制的着色器中,计算出像素的颜色。通过最小化网格渲染图像与真实图像之间的颜色差异,以及网格与NeRF模型之间的几何差异,来训练神经纹理图和着色器MLP。

为了增强物理交互的真实感,系统通过将场景分解为具有物理特性的离散实体,并为它们配备刚体物理模型。

可视化自动计算的碰撞几何体,包括球体碰撞器(绿色)、盒子碰撞器(黄色)、凸多边形碰撞器(紫色)和三角网格碰撞器(红色)

利用神经场的组合性质来指导网格的分解,通过识别每个空间区域所属的对象,实现对场景的精确分割。为分解出的个体网格分配物理属性,如质量、摩擦等,可以通过手动设置或查询大型语言模型来估计。使用刚体动力学来模拟用户/代理与环境的交互,包括导航、碰撞和操纵等物理动作。

最后,将交互环境部署在基于WebGL的游戏引擎中,使用Sketchbook和Cannon.js来管理逻辑和资产,确保了环境的实时交互性和物理模拟的真实性。整个Video2Game系统的设计充分考虑了从视频内容到交互式游戏环境的转换过程中的效率、质量和用户体验,为创建逼真的虚拟环境提供了一种全新的自动化解决方案。

实验

研究者们在实验设置阶段选择了三个不同的场景来评估Video2Game系统的有效性,包括户外的“Gardenvase”场景、大规模的KITTI-360自动驾驶场景,以及室内的VR-NeRF场景,后者用于展示机器人模拟的潜力。他们采用了PSNR、SSIM和LPIPS等标准指标来评估图像质量,并利用LiDAR点云数据来评估KITTI-360数据集的几何重建准确性。

研究者们展示了Video2Game在新视角合成方面与现有最先进方法相比的优越性能。特别是在处理KITTI-360这样的大规模、开放场景时,Video2Game显示出了显著的优势。他们在几何重建方面也取得了显著的进步,生成的深度图和表面法线质量优于基线方法。

定性比较了不同NeRF模型的渲染质量。展示了基线NeRF在渲染质量上优于基线,并且通过利用单目线索,在渲染几何上显著优于其他基线

研究者们进一步展示了如何使用Video2Game方法构建的浏览器兼容游戏。他们基于Gardenvase、KITTI-360和VR-NeRF数据集构建了环境,并生成了包含网格几何、材质和刚体物理的可执行环境。利用Sketchbook和Cannon.js等工具,他们构建的游戏能够在不同平台上高效运行,并提供真实的物理交互体验。游戏中的代理可以自由移动,遵循现实世界的物理规则,并与环境进行交互,如收集硬币、驾驶和推动车辆。

Video2Game在新颖视角合成和交互兼容性分析方面的表现,与现有NeRF烘焙方法相比,Video2Game在不同场景下提供了更好或相当的结果

在机器人模拟方面,研究者们展示了Video2Game的潜力。他们使用VR-NeRF数据集重建了场景,并分割出可模拟的刚体对象。利用PyBullet进行物理模拟,他们控制机器人与环境中的对象进行交互。通过将URDF文件中的机器人模型导入渲染引擎,并结合物理模拟结果,研究者们生成并渲染了逼真的机器人模拟视频。

在VRNeRF数据集中进行机器人模拟的示例,包括Stretch Robot推动碗和Fetch Robot执行拾取和放置动作

通过这些实验,研究者们证明了Video2Game系统不仅在渲染质量和几何重建方面表现出色,而且能够在多种硬件和平台上提供流畅的交互体验。Video2Game在机器人模拟领域的应用展示了其在不同领域的广泛潜力。尽管如此,他们也指出了系统的局限性,例如尚未学习到必要的材质属性来进行物理信息的重新照明,这可能在未来的工作中得到解决。

Video2Game的研究成果标志着虚拟环境创建技术的一大进步。它提供了一种新颖的方法,使用户能够将现实世界的视频片段转换成逼真、可交互的游戏环境。这项技术结合了神经辐射场(NeRF)建模和物理建模的优势,并通过现代游戏引擎的集成,极大地降低了创建高质量虚拟环境的复杂性和成本。

这项技术的潜力不仅限于游戏开发,它还为机器人模拟、教育训练、虚拟现实应用等众多领域带来了新的可能性。通过提供一个可交互的3D环境,Video2Game允许用户在安全和可控的数字空间中测试和练习,从而为现实世界的应用提供了一个有效的预演平台。

论文链接:https://arxiv.org/abs/2404.09833

GitHub 地址:https://video2game.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/697244.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

「51媒体」江苏媒体宣传报道,邀请媒体报道资源汇总

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 江苏作为中国东部的重要省份,拥有丰富的媒体资源,包括电视台、广播电台、报纸以及网络媒体。 电视台 江苏卫视:作为江苏省唯一的省级卫视台&#xff…

Nvidia/算能 +FPGA+AI大算力边缘计算盒子:桥梁结构安全监测

中国铁路设计集团有限公司(简称中国铁设),原铁道第三勘察设计院集团有限公司(铁三院),是中国国家铁路集团有限公司所属的唯一设计企业,成立于1953年,总部位于天津市,是以…

基于机器学习的锂电池RUL SOH预测

数据集为NASA锂电池数据集。 import datetimeimport numpy as npimport pandas as pdfrom scipy.io import loadmatfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.metrics import mean_squared_errorfrom sklearn import metricsimport matplotlib.pyplot as p…

python tushare股票量化数据处理:笔记

1、安装python和tushare及相关库 matplotlib pyplot pandas pandas_datareader >>> import matplotlib.pyplot as plt >>> import pandas as pd >>> import datetime as dt >>> import pandas_datareader.data as web 失败的尝试yf…

01——生产监控平台——WPF

生产监控平台—— 一、介绍 VS2022 .net core(net6版本) 1、文件夹:MVVM /静态资源(图片、字体等) 、用户空间、资源字典等。 2、图片资源库: https://www.iconfont.cn/ ; 1.资源字典Dictionary 1、…

攻防演练之-动员大会

清晨的阳光透过薄雾洒在甲方的攻防演练中心。由于国家对于重点行业的数据灾备的要求。因此每一家企业都会选择在不同的地理位置建多个数据中心,包括一个生产中心、一个同城灾难备份中心、一个异地灾难备份中心。通过这种方式将业务分布在不同地理位置的数据中心&…

PowerDesigner 16.5安装教程

📖PowerDesigner 16.5安装教程 ✅1. 下载✅2. 安装 ✅1. 下载 官网地址:https://www.powerdesigner.biz/EN/powerdesigner/powerdesigner-licensing-history.php 云盘下载:https://www.123pan.com/s/4brbVv-aUoWA.html ✅2. 安装 1.运行P…

Linux网络诊断工具mtr命令详解

目录 一、mtr概述 二、mtr的特点 1、动态路由显示 2、数据包类型 3、显示延迟和丢包 4、过滤和日志 5、网络探测 三、基本用法 1、基本语法 2、帮助 3、常用选项 四、输出解释 1、常见mtr命令及其输出 2、输出解释 四、命令实例 1. 最基本的用法 2. 显示报告形式…

Leetcode3170. 删除星号以后字典序最小的字符串

Every day a Leetcode 题目来源:3170. 删除星号以后字典序最小的字符串 解法1:栈 由于要去掉最小的字母,为了让字典序尽量小,相比去掉前面的字母,去掉后面的字母更好。 从左到右遍历字符串 s,用 26 个栈…

Collections工具类及其案例

package exercise;public class Demo1 {public static void main(String[] args) {//可变参数//方法形参的个数是可以发生变化的//格式:属性类型...名字//int...argsint sum getSum(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);System.out.println(sum);}//底层:可…

嵌入式仪器模块:DMM LCR SMU 及自动化测试软件

• 6 位数字表显示 • 24 位分辨率 • 250 KSPS 采样率 • 电源和数字 I/O 均采用隔离抗噪技术 应用场景 • 电压、电流、电阻、电感、电容的高精度测量 • 二极管/三极管测试 通道1222输入阻抗电压10 MΩHigh-Z, 10 MΩHigh-Z电流10 Ω50 mΩ / 2 Ω / 2 KΩ2 KΩ / 2 M…

Upscayl:款利用人工智能技术,深度学习算法,实现图像无损放大和增强的强大工具。

Upscayl AI: Upscayl AI是一款基于先进的人工智能技术,特别是深度学习算法开发的图像增强工具。它能够智能地分析并改善图像质量,实现无损放大、细节重建和模糊消除,让老旧、低分辨率或模糊的照片焕发新生,达到高清画…

23.在游戏中按下Home键呼出辅助窗口

上一个内容:22.钩子注入原理 在 22.钩子注入原理 它的代码上进行修改 效果图: 首先在CWndMain.h文件中添加下图红框里的东西 ChangeShowState函数的实现 void CWndMain::ChangeShowState() {UiShow !UiShow;ShowWindow(UiShow); } OnInitDialog函数…

在 Android App 里使用 C 代码 - NDK

原生开发套件 (NDK) 是一套工具,使能够在 Android 应用中使用 C 和 C 代码,并提供众多平台库,可使用这些平台库管理原生 activity 和访问实体设备组件,例如传感器和触控输入。 NDK 可能不适合大多数 Android 编程初学者&#xff…

保存图片奇怪的bug

今天发现一个奇怪的bug 这个的dpi是100de ,但是我取完切片之后,发现这个结果就变了

Word中插入Mathtype右编号,调整公式与编号的位置

当你已经将mathtype内置于word后,可以使用右编号快速插入公式 但是往往会出现公式和编号出现的位置或之间的距离不合适 比如我在双栏下插入公式,会发现插入的公式与编号是适用于单栏的 解决办法: 开始->样式->MTDisplayLquation -&g…

基于Java+SpringBoot制作一个景区导览小程序

基于Java+SpringBoot制作一个景区导览小程序。其中系统前端功能包括注册登录、景区采风、旅游导览、地图导航、发布采风、门票预订、修改个人信息;系统后台功能包括用户管理、景区管理、采风管理等模块。 摘要一、小程序1. 创建小程序2. 首页3. 景区采风页4. 旅游导览页5. 发布…

让GNSSRTK不再难【第二天-第3部分】

第11讲 定位方程构建以及最小二乘 11.1 定位方程重构 历史讲中我们已经初步构建了单点定位的先验残差: p i s P i s − ( X s − X 0 ) 2 ( Y s − Y 0 ) 2 ( Z s − Z 0 ) 2 c δ t r − I i s − T i s − ϵ P i s p_i^s P_i^s - \sqrt{(X^s - X_0)^2 (Y…

学生信息管理(C语言)

学生信息管理 (1)问题描述 学生信息包括:学号,姓名,年龄,性别,出生年月,地址,电话,E-mail等。试设计一学生信息管理系统,使之能提供以下功能: 系统以菜单方式工作学生信息录入功能(学生信息用文件保存)---输入学生信息浏览功能---输出查询、排序功能---算法1、…

2024全国大学生数学建模竞赛优秀参考资料分享

0、竞赛资料 优秀的资料必不可少,优秀论文是学习的关键,视频学习也非常重要,如有需要请点击下方名片获取。 一、赛事介绍 全国大学生数学建模竞赛(以下简称竞赛)是中国工业与应用数学学会主办的面向全国大学生的群众性科技活动,旨…