中国科学院大学与美团发布首个交互式驾驶世界模型数据集DrivingDojo：推进交互式与知识丰富的驾驶世界模型

Abstract

驾驶世界模型因其对复杂物理动态的建模能力而受到越来越多的关注。然而，由于现有驾驶数据集中的视频多样性有限，其卓越的建模能力尚未得到充分发挥。为此，我们引入了 DrivingDojo，这是首个专门为训练具有复杂驾驶动态的交互式世界模型量身定制的数据集。该数据集包含完整的驾驶操作、多样化的多主体交互，以及丰富的开放世界驾驶知识，为未来世界模型的发展奠定了基础。我们进一步定义了一个基于行动指令跟随 (AIF) 的基准测试，展示了所提出数据集在生成行动控制的未来预测中的优势。

代码获取：https://drivingdojo.github.io

欢迎加入自动驾驶实战群

Introduction

世界模型因其能够对现实世界复杂的物理动态进行建模而备受关注，它们还具有作为通用模拟器的潜力，能够根据不同的行动指令预测未来状态。通过视频生成技术的进步，模型如 Sora 在生成高质量视频方面取得了显著成功，从而开辟了将视频生成视为现实世界动态建模问题的新途径。特别是生成式世界模型作为现实世界模拟器显示出巨大的潜力，并在自动驾驶领域引发了广泛的研究。

然而，现有的驾驶世界模型在满足自动驾驶基于模型规划的需求方面尚显不足，尤其是在涉及多样化的驾驶操作和复杂的多主体交互的情况下。这些模型在非交互式直线路径驾驶场景中表现良好，但在跟随更具挑战性的行动指令（如变道）方面表现有限。构建下一代驾驶世界模型的一个主要障碍在于数据集。当前常用于世界模型文献中的自动驾驶数据集，如 nuScenes、Waymo 和 ONCE，主要是为感知任务设计的，导致其驾驶模式和多主体交互的数据较为有限，难以充分捕捉现实世界驾驶环境的复杂动态。

在本文中，我们提出了 DrivingDojo，这是一个大规模的驾驶视频数据集，旨在模拟现实世界的视觉交互。该数据集具备驾驶操作完整性、多主体交互性，以及丰富的开放世界驾驶知识。DrivingDojo 数据集包含丰富的纵向操作（如加速、紧急刹车和停车启动）和横向操作（如掉头、超车和变道）。此外，我们还特别设计数据集，包含大量包含多主体交互的轨迹（如插入、切断和正面汇入）。最后，DrivingDojo 包含稀有事件的视频，如穿越动物、掉落的瓶子和路面碎片。

为了衡量驾驶场景建模的进展，我们提出了一个新的行动指令跟随 (AIF) 基准，用以评估世界模型执行合理未来滚动预测的能力。AIF 基准通过计算生成视频中动作与给定指令的误差来评估长期运动可控性。我们还在 DrivingDojo 数据集上评估了世界模型的基线方法。

3. The DrivingDojo Dataset

我们的目标是提供一个大型且多样化的动作指令驾驶视频数据集——DrivingDojo，以支持驾驶世界模型的发展。为实现这一目标，我们从通过车队数据收集的视频池中提取了高度信息化的剪辑，这些数据跨越了数年，涵盖了超过500辆运营车辆，分布于中国多个主要城市。DrivingDojo 特点包括多样化的自车动作、与道路使用者的丰富交互，以及稀有的驾驶知识，这对于高质量的未来预测至关重要，如表2所示。

我们从 DrivingDojo 的设计原则及其与现有数据集的独特性开始进行说明，详见3.1至3.3节。然后，我们在3.4节中描述了数据筛选程序和统计信息。

3.1 动作的完整性

将驾驶世界模型作为真实世界模拟器使用时，要求它能够准确地遵循动作指令。现有的自动驾驶数据集（如 ONCE 和 nuScenes）通常是为开发感知算法而设计的，因此缺乏多样的驾驶操作。

为使世界模型能够生成无限数量的高保真、可控动作的虚拟驾驶环境，我们创建了一个名为 DrivingDojo-Action 的子集，该子集特征为驾驶操作的平衡分布。该子集涵盖了多种纵向操作（如加速、减速、紧急刹车和起停驾驶）以及横向操作（如变道和保持车道）。如图3a所示，我们的 DrivingDojo-Action 子集相较于现有的自动驾驶数据集提供了更平衡和完整的自车动作集。

3.2 多主体交互

除了在静态路网环境中导航外，建模多主体交互（如并线和让行）的动态也是世界模型的重要任务。然而，当前的数据集要么没有考虑多主体交互（如 nuScenes 和 Waymo），要么是从大规模互联网视频中构建的，缺乏适当的筛选和平衡（如 OpenDV-2K）。

为解决这一问题，我们设计了 DrivingDojo-Interplay 子集，重点关注与动态主体的交互。正如图1b所示，我们特别筛选了这一子集，包含以下驾驶场景：插入/切出、相遇、堵塞、超车和被超车。这些场景涵盖了多种现实情况，如车辆插入车道、遇到对向来车以及需要紧急刹车等。通过包含这些多样化的场景，我们的数据集使得世界模型能够更好地理解和预测与动态主体的复杂交互，从而提高其在真实驾驶条件下的表现。

3.3 丰富的开放世界知识

与感知和预测模型将高维传感器输入压缩为低维向量表示不同，世界模型在像素空间中操作，具有更强的建模能力。这种增加的能力使世界模型能够有效捕捉开放世界驾驶场景的复杂动态，如动物突然穿越道路或车辆货箱中的物品掉落。

然而，现有的数据集，无论是感知导向的 ONCE 还是规划导向的 nuPlan，都没有足够的数据来开发和评估世界模型对长尾知识的建模能力。因此，我们特别强调了包含丰富开放世界知识的视频片段，并构建了 DrivingDojo-Open 子集。如图1c所示，描述开放世界驾驶知识面临复杂性和多样性带来的挑战，但这些场景对于确保安全驾驶至关重要。

DrivingDojo-Open 子集包含 3.7k 视频片段，展示了驾驶场景中的开放世界知识。该子集从车队数据中筛选而来，涵盖了异常天气、路面上的异物、漂浮障碍物、掉落物品、车辆接管案例以及与交通灯和栏杆的互动。DrivingDojo-Open 为驾驶世界建模提供了不可或缺的补充，涵盖了超出结构化路网和常规道路使用者互动的驾驶知识。

3.4 数据筛选与统计

数据集统计：DrivingDojo 数据集包含约 18k 视频，分辨率为 1920×1080，帧率为 5 fps。视频片段来自包括北京、深圳、徐州等在内的中国主要城市。这些视频在多种天气条件和不同的光照条件下拍摄。所有视频都配有由高精度定位技术支持的 HD-Map 提供的同步相机姿态信息。DrivingDojo-Open 子集中的视频还配有描述稀有事件的文本说明。更多详情请见附录。

数据采集：我们使用美团的自动化配送车辆平台采集了多模态车队数据。我们数据集中的视频片段由前视摄像头录制，摄像头的水平视场为 120°，以捕捉全面的视觉信息。原始数据是从 2022 年 5 月到 2024 年 5 月期间在中国多个城市采集的，包含总共 90 万个视频和约 7,500 小时的驾驶影像，在录制之前已经进行了预筛选。

数据筛选：为确保数据的多样性以及自车动作和多主体交互的平衡分布，我们包含了不同标准的车队数据。DrivingDojo 的数据来源包括：(1) 车辆运行期间安全检查员的干预数据，(2) 自动紧急刹车数据，(3) 随机采样的 30 秒常规视频，(4) 选定的独特场景，如交通灯变化、栏杆升起、左转和右转、直行穿越、车辆相遇、变道和行人交互，(5) 手动排序的稀有数据，包含路面上的移动和静止异物、漂浮障碍物、掉落和滚动物体。筛选详情见附录。

个人身份信息 (PII) 去除：为了避免侵犯隐私并遵守相关法律，我们使用高精度车牌和人脸检测器检测并模糊了所有视频中每一帧的 PII。由内部注释团队和作者手动检查，确保所有视频的 PII 去除程序正确执行。

4 DrivingDojo for World Model

为了促进自动驾驶中世界模型的研究，我们定义了一项新任务——动作指令跟随 (AIF)。我们提供了基线方法（详见第4.2节）和评估指标（详见第4.3节），以便进一步探索。更多详细信息请参阅附录。

4.1 动作指令跟随

动作可控的视频预测是世界模型的核心能力之一。与仅仅专注于预测高质量的视频帧不同，动作指令跟随要求世界模型考虑初始视频帧和自车的动作指令，以预测相应的世界响应。给定初始图像和一系列动作

，模型预测未来状态

，如公式（1）所示：

其中，

表示每帧的动作指令，在我们的实验中，动作轨迹

。代表世界模型，

表示未来的视觉预测帧。

4.2 模型架构

我们提出了 DrivingDojo 基线模型，这是一个基于 Stable Video Diffusion (SVD)的视频生成模型。虽然 SVD 是一个用于图像到视频生成的潜在扩散模型，但我们扩展了其功能，使其能够在动作的条件下生成视频。

对于 AIF 任务，我们将每个动作序列的值编码为一个1024维的向量，使用一个多层感知器 (MLP) 完成编码。随后，将该动作特征与第一帧图像特征连接起来，并输入到 U-Net中进行处理。

4.3 评估指标

视觉质量：为了评估生成视频的质量，我们采用 FID 和 FVD 作为主要指标。
动作指令跟随：我们提出了动作指令跟随 (AIF) 误差

和

来衡量生成视频与输入动作条件之间的一致性。给定生成的视频序列

，我们使用结构光重建 (SfM) 的离线视觉实现工具（如 COLMAP）来估计生成视频中的车辆轨迹：{

，其中

是未知尺度的估计轨迹。我们通过最小化第一 N 帧的估计轨迹与输入自车运动之间的误差来估计尺度因子。随后，我们将估计的动作与真实的动作指令

进行比较，并报告横向

和纵向

动作的平均绝对误差：

5.Experiment

5.1 视觉预测结果

为了展示我们数据集中行为和动态的丰富性，我们比较了不同数据集上视频微调的质量。表 3 显示了我们从 OpenDV-2K 数据集中随机选择的 256 个视频片段作为测试集，并评估了 SVD 模型在各种数据集上的微调表现。结果表明，使用我们数据集训练的模型表现出了更好的视觉质量。

5.2 动作指令跟随结果

多样化的驾驶行为：基于不同的动作序列，我们的模型能够生成多个可能的未来。如图 5 所示，模型成功执行了各种驾驶动作，包括在交叉路口的直行、左转和右转动作，以及左右变道和保持直线行驶。

动作指令跟随：尽管定性评估展示了我们模型强大的生成能力，我们还通过定量评估来测量模型在动作指令跟随中的准确性。我们希望评估模型生成的视频轨迹是否能准确遵循预期的路线。这是世界模型未来应用的基本保障。正如表 4 所示，当以测试视频的原始动作序列（域内动作）为条件时，训练于 DrivingDojo 的基线世界模型生成的视频对动作指令具有较高的忠诚度，每帧的视频动作误差仅限于横向或纵向方向上的 10 厘米。第 3 行显示，当使用相同的初始图像并随机选择的动作指令输入模型时，平均动作误差略有增加。当模型在 OpenDV-2K 的初始图像上以零样本模式运行并输入随机动作指令时，其生成的视频仍然能够较好地与动作指令保持一致。需要注意的是，提出的动作指令跟随误差可以敏感地反映模型在域外输入下的表现影响。

零样本评估：如表 5 所示，我们比较了在不同数据集上训练的模型及其在新数据集上的零样本泛化性能。结果表明，使用我们数据集训练的模型在生成质量和动作跟随能力上表现更好。特别是我们注意到，自动驾驶数据集中更丰富的驾驶动作显著提升了模型在动作指令跟随任务中的表现。如图 3a 所示，DrivingDojo 中的视频相比于 ONCE 或 nuScenes 包含更丰富的驾驶动作，这使得训练于 DrivingDojo 的模型在动作指令跟随（AIF）表现上明显优于那些在 ONCE 或 nuScenes 上训练的模型。我们观察到，在 ONCE 数据集上训练的模型，即使输入了左/右转或变道的动作指令，也总是生成车辆直线行驶的视频，这导致其在横向动作跟随（

）表现上尤其差。我们推测，这是因为 ONCE 数据集中转弯或变道的驾驶动作很少，这导致了该数据集上训练的模型缺乏跟随横向动作的能力。而 nuScenes 数据集中更缺乏驾驶动作，导致其世界模型的 AIF 表现更差。

AIF 可视化：我们在图 6 中展示了生成视频中估计轨迹的示例。每帧中，红点表示当前的相机位置估计，黑点表示过去帧中的相机位置。通过可视化对比，进一步展示了模型准确跟随动作指令的能力。

5.3 真实世界模拟

动作泛化：我们的模型在两个关键方面表现出了较强的泛化能力。如图 7a 所示，首先，模型能够很好地泛化到域外（OOD）动作，如强行在行人道上行驶，展示了它在处理不合理动作时的适应性。其次，模型成功地将其能力扩展到其他数据集上，执行了 OpenDV-2K 数据集上的变道任务，以及 nuScenes 数据集上的倒车操作，而无需进一步微调。这突显了该模型作为真实世界模拟器的潜力，能够适应多样的驾驶场景。

动态代理：我们在图 7b 中展示了模型模拟与动态代理交互的能力。结果表明，模型可以根据动作提供合理的响应。第一个场景中，行人选择避让，我们的车辆继续前进，导致了轨迹的变化。第二个场景中，快递员选择在狭窄的道路上停止等待。

开放世界动态：此外，图 7b 展示了模型在道路上遇到稀有场景时的模拟，包括与移动鸟类和停车场栏杆的交互。这进一步展示了该模型处理多样驾驶场景的稳健性和多功能性。

结论

本文的主要贡献如下：

(1) 本文设计了一个大规模驾驶视频数据集，促进自动驾驶世界模型的研究。与之前的数据集相比，我们的数据集具备完整的驾驶操作、多样化的多主体交互和丰富的开放世界驾驶知识。
(2) 本文设计了一个基于行动指令跟随的驾驶世界模型任务，并提供了相应的视频世界模型基线方法。
(3) 在驾驶视频生成和行动指令跟随的基准测试结果表明，DrivingDojo 为未来驾驶世界模型的发展提供了许多新机遇。

文章引用：DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。