中国科学院大学与美团发布首个交互式驾驶世界模型数据集DrivingDojo:推进交互式与知识丰富的驾驶世界模型

中国科学院大学与美团发布首个交互式驾驶世界模型数据集DrivingDojo:推进交互式与知识丰富的驾驶世界模型

Abstract

驾驶世界模型因其对复杂物理动态的建模能力而受到越来越多的关注。然而,由于现有驾驶数据集中的视频多样性有限,其卓越的建模能力尚未得到充分发挥。为此,我们引入了 DrivingDojo,这是首个专门为训练具有复杂驾驶动态的交互式世界模型量身定制的数据集。该数据集包含完整的驾驶操作、多样化的多主体交互,以及丰富的开放世界驾驶知识,为未来世界模型的发展奠定了基础。我们进一步定义了一个基于行动指令跟随 (AIF) 的基准测试,展示了所提出数据集在生成行动控制的未来预测中的优势。

代码获取:https://drivingdojo.github.io

 欢迎加入自动驾驶实战群

Introduction

世界模型因其能够对现实世界复杂的物理动态进行建模而备受关注,它们还具有作为通用模拟器的潜力,能够根据不同的行动指令预测未来状态。通过视频生成技术的进步,模型如 Sora 在生成高质量视频方面取得了显著成功,从而开辟了将视频生成视为现实世界动态建模问题的新途径。特别是生成式世界模型作为现实世界模拟器显示出巨大的潜力,并在自动驾驶领域引发了广泛的研究。

然而,现有的驾驶世界模型在满足自动驾驶基于模型规划的需求方面尚显不足,尤其是在涉及多样化的驾驶操作和复杂的多主体交互的情况下。这些模型在非交互式直线路径驾驶场景中表现良好,但在跟随更具挑战性的行动指令(如变道)方面表现有限。构建下一代驾驶世界模型的一个主要障碍在于数据集。当前常用于世界模型文献中的自动驾驶数据集,如 nuScenes、Waymo 和 ONCE,主要是为感知任务设计的,导致其驾驶模式和多主体交互的数据较为有限,难以充分捕捉现实世界驾驶环境的复杂动态。

在本文中,我们提出了 DrivingDojo,这是一个大规模的驾驶视频数据集,旨在模拟现实世界的视觉交互。该数据集具备驾驶操作完整性、多主体交互性,以及丰富的开放世界驾驶知识。DrivingDojo 数据集包含丰富的纵向操作(如加速、紧急刹车和停车启动)和横向操作(如掉头、超车和变道)。此外,我们还特别设计数据集,包含大量包含多主体交互的轨迹(如插入、切断和正面汇入)。最后,DrivingDojo 包含稀有事件的视频,如穿越动物、掉落的瓶子和路面碎片。

为了衡量驾驶场景建模的进展,我们提出了一个新的行动指令跟随 (AIF) 基准,用以评估世界模型执行合理未来滚动预测的能力。AIF 基准通过计算生成视频中动作与给定指令的误差来评估长期运动可控性。我们还在 DrivingDojo 数据集上评估了世界模型的基线方法。

3. The DrivingDojo Dataset

我们的目标是提供一个大型且多样化的动作指令驾驶视频数据集——DrivingDojo,以支持驾驶世界模型的发展。为实现这一目标,我们从通过车队数据收集的视频池中提取了高度信息化的剪辑,这些数据跨越了数年,涵盖了超过500辆运营车辆,分布于中国多个主要城市。DrivingDojo 特点包括多样化的自车动作、与道路使用者的丰富交互,以及稀有的驾驶知识,这对于高质量的未来预测至关重要,如表2所示。

图片

我们从 DrivingDojo 的设计原则及其与现有数据集的独特性开始进行说明,详见3.1至3.3节。然后,我们在3.4节中描述了数据筛选程序和统计信息。

3.1 动作的完整性

将驾驶世界模型作为真实世界模拟器使用时,要求它能够准确地遵循动作指令。现有的自动驾驶数据集(如 ONCE 和 nuScenes)通常是为开发感知算法而设计的,因此缺乏多样的驾驶操作。

为使世界模型能够生成无限数量的高保真、可控动作的虚拟驾驶环境,我们创建了一个名为 DrivingDojo-Action 的子集,该子集特征为驾驶操作的平衡分布。该子集涵盖了多种纵向操作(如加速、减速、紧急刹车和起停驾驶)以及横向操作(如变道和保持车道)。如图3a所示,我们的 DrivingDojo-Action 子集相较于现有的自动驾驶数据集提供了更平衡和完整的自车动作集。

3.2 多主体交互

除了在静态路网环境中导航外,建模多主体交互(如并线和让行)的动态也是世界模型的重要任务。然而,当前的数据集要么没有考虑多主体交互(如 nuScenes 和 Waymo),要么是从大规模互联网视频中构建的,缺乏适当的筛选和平衡(如 OpenDV-2K)。

为解决这一问题,我们设计了 DrivingDojo-Interplay 子集,重点关注与动态主体的交互。正如图1b所示,我们特别筛选了这一子集,包含以下驾驶场景:插入/切出、相遇、堵塞、超车和被超车。这些场景涵盖了多种现实情况,如车辆插入车道、遇到对向来车以及需要紧急刹车等。通过包含这些多样化的场景,我们的数据集使得世界模型能够更好地理解和预测与动态主体的复杂交互,从而提高其在真实驾驶条件下的表现。

图片

3.3 丰富的开放世界知识

与感知和预测模型将高维传感器输入压缩为低维向量表示不同,世界模型在像素空间中操作,具有更强的建模能力。这种增加的能力使世界模型能够有效捕捉开放世界驾驶场景的复杂动态,如动物突然穿越道路或车辆货箱中的物品掉落。

然而,现有的数据集,无论是感知导向的 ONCE 还是规划导向的 nuPlan,都没有足够的数据来开发和评估世界模型对长尾知识的建模能力。因此,我们特别强调了包含丰富开放世界知识的视频片段,并构建了 DrivingDojo-Open 子集。如图1c所示,描述开放世界驾驶知识面临复杂性和多样性带来的挑战,但这些场景对于确保安全驾驶至关重要。

DrivingDojo-Open 子集包含 3.7k 视频片段,展示了驾驶场景中的开放世界知识。该子集从车队数据中筛选而来,涵盖了异常天气、路面上的异物、漂浮障碍物、掉落物品、车辆接管案例以及与交通灯和栏杆的互动。DrivingDojo-Open 为驾驶世界建模提供了不可或缺的补充,涵盖了超出结构化路网和常规道路使用者互动的驾驶知识。

3.4 数据筛选与统计

数据集统计:DrivingDojo 数据集包含约 18k 视频,分辨率为 1920×1080,帧率为 5 fps。视频片段来自包括北京、深圳、徐州等在内的中国主要城市。这些视频在多种天气条件和不同的光照条件下拍摄。所有视频都配有由高精度定位技术支持的 HD-Map 提供的同步相机姿态信息。DrivingDojo-Open 子集中的视频还配有描述稀有事件的文本说明。更多详情请见附录。

数据采集:我们使用美团的自动化配送车辆平台采集了多模态车队数据。我们数据集中的视频片段由前视摄像头录制,摄像头的水平视场为 120°,以捕捉全面的视觉信息。原始数据是从 2022 年 5 月到 2024 年 5 月期间在中国多个城市采集的,包含总共 90 万个视频和约 7,500 小时的驾驶影像,在录制之前已经进行了预筛选。

数据筛选:为确保数据的多样性以及自车动作和多主体交互的平衡分布,我们包含了不同标准的车队数据。DrivingDojo 的数据来源包括:(1) 车辆运行期间安全检查员的干预数据,(2) 自动紧急刹车数据,(3) 随机采样的 30 秒常规视频,(4) 选定的独特场景,如交通灯变化、栏杆升起、左转和右转、直行穿越、车辆相遇、变道和行人交互,(5) 手动排序的稀有数据,包含路面上的移动和静止异物、漂浮障碍物、掉落和滚动物体。筛选详情见附录。

个人身份信息 (PII) 去除:为了避免侵犯隐私并遵守相关法律,我们使用高精度车牌和人脸检测器检测并模糊了所有视频中每一帧的 PII。由内部注释团队和作者手动检查,确保所有视频的 PII 去除程序正确执行。

4 DrivingDojo for World Model

为了促进自动驾驶中世界模型的研究,我们定义了一项新任务——动作指令跟随 (AIF)。我们提供了基线方法(详见第4.2节)和评估指标(详见第4.3节),以便进一步探索。更多详细信息请参阅附录。

4.1 动作指令跟随

动作可控的视频预测是世界模型的核心能力之一。与仅仅专注于预测高质量的视频帧不同,动作指令跟随要求世界模型考虑初始视频帧和自车的动作指令,以预测相应的世界响应。给定初始图像和一系列动作

图片

,模型 预测未来状态

图片

,如公式(1)所示:

图片

其中,

图片

表示每帧的动作指令,在我们的实验中,动作轨迹

图片

 。代表世界模型,

图片

表示未来的视觉预测帧。

4.2 模型架构

我们提出了 DrivingDojo 基线模型,这是一个基于 Stable Video Diffusion (SVD)的视频生成模型。虽然 SVD 是一个用于图像到视频生成的潜在扩散模型,但我们扩展了其功能,使其能够在动作的条件下生成视频。

对于 AIF 任务,我们将每个动作序列的值编码为一个1024维的向量,使用一个多层感知器 (MLP) 完成编码。随后,将该动作特征与第一帧图像特征连接起来,并输入到 U-Net中进行处理。

4.3 评估指标

视觉质量:为了评估生成视频的质量,我们采用 FID 和 FVD 作为主要指标。
动作指令跟随:我们提出了 动作指令跟随 (AIF) 误差 

图片

和 

图片

来衡量生成视频与输入动作条件之间的一致性。给定生成的视频序列

图片

,我们使用结构光重建 (SfM) 的离线视觉实现工具(如 COLMAP)来估计生成视频中的车辆轨迹:{

图片

,其中 

图片

是未知尺度的估计轨迹。我们通过最小化第一 N 帧的估计轨迹与输入自车运动之间的误差来估计尺度因子。随后,我们将估计的动作与真实的动作指令

图片

进行比较,并报告横向 

图片

和纵向

图片

动作的平均绝对误差:

图片

5.Experiment

5.1 视觉预测结果

为了展示我们数据集中行为和动态的丰富性,我们比较了不同数据集上视频微调的质量。表 3 显示了我们从 OpenDV-2K 数据集中随机选择的 256 个视频片段作为测试集,并评估了 SVD 模型在各种数据集上的微调表现。结果表明,使用我们数据集训练的模型表现出了更好的视觉质量。

图片

5.2 动作指令跟随结果

多样化的驾驶行为:基于不同的动作序列,我们的模型能够生成多个可能的未来。如 图 5 所示,模型成功执行了各种驾驶动作,包括在交叉路口的直行、左转和右转动作,以及左右变道和保持直线行驶。

图片

动作指令跟随:尽管定性评估展示了我们模型强大的生成能力,我们还通过定量评估来测量模型在动作指令跟随中的准确性。我们希望评估模型生成的视频轨迹是否能准确遵循预期的路线。这是世界模型未来应用的基本保障。正如 表 4 所示,当以测试视频的原始动作序列(域内动作)为条件时,训练于 DrivingDojo 的基线世界模型生成的视频对动作指令具有较高的忠诚度,每帧的视频动作误差仅限于横向或纵向方向上的 10 厘米。第 3 行显示,当使用相同的初始图像并随机选择的动作指令输入模型时,平均动作误差略有增加。当模型在 OpenDV-2K 的初始图像上以零样本模式运行并输入随机动作指令时,其生成的视频仍然能够较好地与动作指令保持一致。需要注意的是,提出的动作指令跟随误差可以敏感地反映模型在域外输入下的表现影响。

图片

零样本评估:如 表 5 所示,我们比较了在不同数据集上训练的模型及其在新数据集上的零样本泛化性能。结果表明,使用我们数据集训练的模型在生成质量和动作跟随能力上表现更好。特别是我们注意到,自动驾驶数据集中更丰富的驾驶动作显著提升了模型在动作指令跟随任务中的表现。如 图 3a 所示,DrivingDojo 中的视频相比于 ONCE 或 nuScenes 包含更丰富的驾驶动作,这使得训练于 DrivingDojo 的模型在动作指令跟随(AIF)表现上明显优于那些在 ONCE 或 nuScenes 上训练的模型。我们观察到,在 ONCE 数据集上训练的模型,即使输入了左/右转或变道的动作指令,也总是生成车辆直线行驶的视频,这导致其在横向动作跟随(

图片

)表现上尤其差。我们推测,这是因为 ONCE 数据集中转弯或变道的驾驶动作很少,这导致了该数据集上训练的模型缺乏跟随横向动作的能力。而 nuScenes 数据集中更缺乏驾驶动作,导致其世界模型的 AIF 表现更差。

图片

图片

AIF 可视化:我们在 图 6 中展示了生成视频中估计轨迹的示例。每帧中,红点表示当前的相机位置估计,黑点表示过去帧中的相机位置。通过可视化对比,进一步展示了模型准确跟随动作指令的能力。

图片

5.3 真实世界模拟

图片

动作泛化:我们的模型在两个关键方面表现出了较强的泛化能力。如 图 7a 所示,首先,模型能够很好地泛化到域外(OOD)动作,如强行在行人道上行驶,展示了它在处理不合理动作时的适应性。其次,模型成功地将其能力扩展到其他数据集上,执行了 OpenDV-2K 数据集上的变道任务,以及 nuScenes 数据集上的倒车操作,而无需进一步微调。这突显了该模型作为真实世界模拟器的潜力,能够适应多样的驾驶场景。

动态代理:我们在 图 7b 中展示了模型模拟与动态代理交互的能力。结果表明,模型可以根据动作提供合理的响应。第一个场景中,行人选择避让,我们的车辆继续前进,导致了轨迹的变化。第二个场景中,快递员选择在狭窄的道路上停止等待。

开放世界动态:此外,图 7b 展示了模型在道路上遇到稀有场景时的模拟,包括与移动鸟类和停车场栏杆的交互。这进一步展示了该模型处理多样驾驶场景的稳健性和多功能性。

结论

本文的主要贡献如下:

(1) 本文设计了一个大规模驾驶视频数据集,促进自动驾驶世界模型的研究。与之前的数据集相比,我们的数据集具备完整的驾驶操作、多样化的多主体交互和丰富的开放世界驾驶知识。
(2) 本文设计了一个基于行动指令跟随的驾驶世界模型任务,并提供了相应的视频世界模型基线方法。
(3) 在驾驶视频生成和行动指令跟随的基准测试结果表明,DrivingDojo 为未来驾驶世界模型的发展提供了许多新机遇。

文章引用:DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码,加入知识星球。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/893113.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

uniapp学习(004-2 组件 Part.2生命周期)

零基础入门uniapp Vue3组合式API版本到咸虾米壁纸项目实战,开发打包微信小程序、抖音小程序、H5、安卓APP客户端等 总时长 23:40:00 共116P 此文章包含第31p-第p35的内容 文章目录 组件生命周期我们主要使用的三种生命周期setup(创建组件时执行)不可以操作dom节点…

我对软件工程的理解

1 引言 从事软件行业这么年,写了10年代码,又从事了多年的项目产品方面的工作,一些每天用到的软件工程的方法,虽然天天都在用但一些概念总感觉似是而非,正好借假期的时间,好好整理下,以供自己或…

【你也能从零基础学会网站开发】浅谈一下SQL Server 2000中的NULL值到底有什么用处

🚀 个人主页 极客小俊 ✍🏻 作者简介:程序猿、设计师、技术分享 🐋 希望大家多多支持, 我们一起学习和进步! 🏅 欢迎评论 ❤️点赞💬评论 📂收藏 📂加关注 NULL 是什么 …

2d实时数字人聊天语音对话使用案例,对接大模型

参看: https://github.com/wan-h/awesome-digital-human-live2d 电脑环境: ubuntu 1060ti 下载: git clone https://github.com/wan-h/awesome-digital-human-live2d.gitdocker部署; cd awesome-digital-human-live2d docker-compose -f docker-compose-quickStart.ya…

Spring AI Java程序员的AI之Spring AI(一)

SpringAI 基础使用 前言Spring AIChatClientImageClientOpenAiAudioTranscriptionClientEmbeddingClient 总结 前言 Spring AI,听着名字就感觉很好使用,快速上手,虽然功能没有太完善,但是社区活跃度很高,可以看看源码…

大数据治理:构建数据驱动的智能决策体系

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

Edge论文的创新点

创新点及其来源 1. 从灰度边缘重建RGB图像的方法(EdgRec) 基于的方法:传统的重建方法,如使用自动编码器或生成模型来重建正常样本的图像,并通过对原始图像和重建图像的比较来检测异常。 重建过程: 训练阶…

Spring Boot: 构建高效中小型医院网站

1 绪论 1.1研究背景 随着计算机技术的成熟、普及,现代信息技术革命的迅猛发展,正冲击并进而改变着经济和社会结构。信息化的程度已经成为一个国家,一个企业,一个组织仍至一个人发展的基础和竞争成败的关键。 在实际的生活中,用户都…

Oracle Expdp按条件导出-指定表数据

1.场景描述 业务需求:导出A机构、2024的数据,以dmp格式,保留导出日志。首先,需要分析库中需要导出的表清单、表的机构字段约束、表的时间约束;然后再导出。 2.方案分析 本次采用Oracle的expdp数据泵方式导出&#xf…

集合框架12:Set集合概述、Set接口使用

视频链接:13.24 Set接口使用_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1zD4y1Q7Fw?spm_id_from333.788.videopod.episodes&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5&p24 1、Set集合概述 特点:无序、无下标,元素不可…

现今 CSS3 最强二维布局系统 Grid 网格布局

深入学习 CSS3 目前最强大的布局系统 Grid 网格布局 Grid 网格布局的基本认识 Grid 网格布局: Grid 布局是一个基于网格的二位布局系统,是目前 CSS 最强的布局系统,它可以同时对列和行进行处理(它将网页划分成一个个网格,可以任…

限流是什么?如何限流?怎么限流?

概述 什么是限流 对某一时间窗口内的请求数进行限制,保持系统的可用性和稳定性,防止因流量暴增而导致的系统运行缓慢或宕机 为什么要限流 因为互联网系统通常都要面对大并发大流量的请求,在突发情况下(最常见的场景就是秒杀、抢购),瞬时大流量会直接将系统打垮,无法…

DS堆的实际应用(10)

文章目录 前言一、堆排序建堆排序 二、TopK问题原理实战创建一个有一万个数的文件读取文件并将前k个数据创建小堆用剩余的N-K个元素依次与堆顶元素来比较将前k个数据打印出来并关闭文件 测试 三、堆的相关习题总结 前言 学完了堆这个数据结构的概念和特性后,我们来看…

DVWA | Files Upload(文件上传)通关笔记

概念 **文件上传漏洞**是网络安全中常见的漏洞之一,攻击者可以利用该漏洞上传恶意文件,进而在服务器上执行恶意代码、绕过权限验证或获取敏感数据。文件上传漏洞主要发生在允许用户上传文件的Web应用程序中,比如图像、文档上传功能等。 ###…

dayjs日期格式化,开发uniapp或unicloud前后端进行时间格式转换

一、 为什么要用日期格式化 因为在开发项目过程中,会遇到各种各样的日期格式,有的显示完整的年-月-日 时:分:秒,而有的场景就只显示月-日等格式,还有就是显示当前时间和注册时间的间隔时长等,场景非常多,如…

学习 Flutter 的最佳路线图

学习 Flutter 的最佳路线图 视频 https://youtu.be/IpKXVq9lP_4 https://www.bilibili.com/video/BV1J92uYDEit/ 前言 原文 Flutter 开发者必看:全面的学习路线图 本文借鉴了 roadmap 的思路,为大家介绍如何有效学习 Flutter。 该路线图提供了从零开…

MySQL-DQL练习题

文章目录 简介初始化表练习题 简介 本节简介: 主要是一些给出一些习题, 关于DQL查询相关的, DQL查询语句是最重要的SQL语句, 功能性最复杂, 功能也最强, 所以本节建议适合以及有了DQL查询基础的食用, 另外注意我们使用的是Navicat, SQL编辑的格式规范也是Navicat指定的默认格式…

uni-app uni.setTabBarBadge 不生效

‘text’属性,类型必须是字符串,而接口返回的是数值,没有注意到,所以怎么都不生效,也不会有报错!

基于一个python库tencent的API接口开发有趣应用

这篇博客给大家介绍一个python库 tencent (https://pypi.org/project/tencent/) 以及对应三方API的开发流程,以公众号后台通过服务器接入自动系统回复为例。基于微信公众号后台开发自动回复,或者利用多模态信息回复用户输入,需要自己有独立服…

python爬虫实战案例——从移动端接口抓取微博评论,采用cookie登陆,数据存入excel表格,超详细(15)

文章目录 1、任务目标2、网页分析3、代码编写3.1 代码分析3.2 完整代码1、任务目标 1、目标网站:微博文章(https://m.weibo.cn/detail/4813628149072458),这是微博某一篇博文,用于本文测试 2、要求:爬取该博文下,所有一级评论和二级评论,以及每条评论的作者,最后保存至E…