DiffMap：首个利用LDM来增强高精地图构建的网络

论文标题：

DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model

论文作者：

Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang

导读：

首个利用潜在扩散模块（Latent Diffusion Model）对地图分割掩码的结构化先验进行建模的新方法，基于该技术，现有语义分割方法的性能可以得到显著提升，并同时提高生成地图的质量。©️【深蓝AI】编译

1. 背景介绍

对自动驾驶车辆来说，高清（HD）地图能够帮助其提高对环境理解（感知）的准确度和导航的精度。然而，人工建图面临繁杂和高成本的问题。为此，当前研究将地图构建集成到BEV（鸟瞰视角）感知任务中，在BEV空间中构建栅格化HD地图视为一个分割任务，可以理解为获得BEV特征后增加使用类似于FCN（全卷积网络）的分割头。例如，HDMapNet通过LSS（Lift，Splat，Shoot）编码传感器特征，然后采用多分支FCN进行语义分割、实例检测和方向预测来构建地图。

但目前此类方法（基于像素的分类方法）仍存在固有局限性，包括可能忽略特定类别属性，这可能导致分隔带扭曲和中断、行人横道模糊以及其他类型的伪影和噪声，如图1（a）所示。这些问题不仅影响地图的结构精度，还可能直接影响自动驾驶系统的下游路径规划模块。

在这里插入图片描述
图1｜HDMapNet，DiffMap和GroundTruth效果对比©️【深蓝AI】编译

因此，模型最好能考虑HD地图的结构先验信息，如车道线的平行和笔直特性。一些生成模型在捕捉图像真实性和固有特性具备这样的能力。例如，LDM（潜在扩散模型）在高保真图像生成方面展现了巨大潜力，并在与分割增强相关的任务中证明了其有效性。另外，还可以通过引入控制变量，进一步指导图像的生成以满足特定的控制要求。因此，将生成模型应用于捕捉地图结构先验，有望减少分割伪影并提高地图构建性能。

在本文中，作者提出DiffMap网络。该网络首次通过使用改进的LDM作为增强模块，对现有的分割模型进行地图结构化先验建模并支持即插即用。DiffMap不仅能通过添加和删除噪声的过程学习地图先验，还可以将BEV特征集成为控制信号，以确保输出与当前帧观测相匹配。实验结果表明，DiffMap能够有效地生成更加平滑合理的地图分割结果，同时极大地减少了伪影，提高了整体的地图构建性能。

2. 相关工作

2.1 语义地图构建

在传统的高清（HD）地图构建中，语义地图通常是基于激光雷达点云手动或半自动标注的。一般基于SLAM的算法来构建全局一致的地图，并手动为地图添加语义标注。然而，这种方法费时费力，同时在更新地图方面也存在极大挑战，从而限制了其可扩展性和实时性能。

HDMapNet提出了一种使用车载传感器动态构建局部语义地图的方法。它将激光雷达点云和全景图像特征编码到鸟瞰视图（BEV）空间，并使用三个不同的头部进行解码，最终产生一个矢量化的局部语义地图。SuperFusion专注于构建远程高精度语义地图，利用激光雷达深度信息增强图像深度估计，并使用图像特征引导远程激光雷达特征预测。然后采用类似于HDMapNet的地图检测头获得语义地图。MachMap将任务划分为折线检测和多边形实例分割，并使用后处理来细化掩码以获得最终结果。后续的研究聚焦在端到端在线建图，直接获得矢量化的高清地图。无需手动标注的语义地图动态构建有效地降低了构建成本。

2.2 扩散模型应用于分割和检测

去噪扩散概率模型（DDPMs）是基于马尔可夫链的一类生成模型，在图像生成等领域展现出优秀的性能，并逐步扩展到分割和检测等各种任务。SegDiff将扩散模型应用于图像分割任务，其中使用的UNet编码器进一步解耦为三个模块：E、F和G。模块G和F分别编码输入图像I和分割图，然后在E中通过加法合并，以迭代地细化分割图。DDPMS使用基础分割模型产生初始预测先验，并利用扩散模型对先验进行细化。DiffusionDet将扩散模型扩展到目标检测框架，将目标检测建模为从噪声框到目标框的去噪扩散过程。

扩散模型也应用于自动驾驶领域，如MagicDrive利用几何约束合成街景，以及Motiondiffuser将扩散模型扩展到多智能体运动预测问题。

2.3 地图先验

目前有几种方法通过利用先验信息（包括显式的标准地图信息和隐式的时间信息）来增强模型鲁棒性，减少车载传感器的不确定性。MapLite2.0以标准定义（SD）先验地图为起点，并结合车载传感器实时推断局部高清地图。MapEx和SMERF利用标准地图数据改善车道感知和拓扑理解。SMERF采用基于Transformer的标准地图编码器编码车道线和车道类型，然后计算标准地图信息与基于传感器的鸟瞰视图（BEV）特征之间的交叉注意力，以集成标准地图信息。NMP通过将过去的地图先验数据与当前感知数据相结合，为自动驾驶汽车提供长期记忆能力。MapPrior结合判别式和生成式模型，在预测阶段将基于现有模型生成的初步预测编码为先验，注入生成模型的离散潜在空间，然后使用生成模型进行细化预测。PreSight利用先前行程的数据优化城市尺度的神经辐射场，生成神经先验，增强后续导航中的在线感知。

3. 方法精析

3.1 准备工作

DDPMs是一种利用扩散过程来近似潜在数据分布 $p (x)$ 的生成模型。它们的工作原理是从一个服从正态分布的变量中去除噪声，模拟了预置长度为 $T$ 的马尔可夫链的逆向操作。在DDPMs中，从干净的初始数据分布 ${\mathbf x}_0$ 到噪声数据集 $\mathbf x_T$ 的转换是通过一系列条件概率 $q(\mathbf x_t|\mathbf x_{t-1})$ 来实现的，其中 $q$ 表示噪声引入过程。在每一步 $t$ ，噪声根据以下规范添加：

$q(\mathbf x_t|\mathbf x_{t-1}) = \mathcal N(\mathbf x_t;\sqrt{1-\beta_t}\mathbf x_{t-1}, \beta_t \mathbf I)\qquad(1)$

其中 $\beta_t$ 是噪声水平的调节器， $\mathcal N$ 表示正态分布， $I$ 是单位矩阵。这一过程的最终结果是 $\mathbf x_T$ 变得与随机噪声无异。随后的去噪机制是一个从 $\mathbf x_T$ 到 $\mathbf x_0$ 的迭代重建过程，由去噪网络 $\epsilon_\theta$ 驱动，该网络估计并逐步细化干净的数据点。去噪函数描述如下：

$p_\theta(\mathbf x_t|\mathbf x_{t-1}) = \mathcal N(\mathbf x_{t-1};\mu_\theta(\mathbf x_t, t),\Sigma_\theta(\mathbf x_t, t))\qquad(2)$

这里， $\mu_\theta$ 和 $\Sigma_\theta$ 分别表示去噪网络 $\epsilon_\theta$ 估计的均值和协方差。

类似地，潜在扩散模型（LDMs）采用增量式去噪方法，在更紧凑高效的潜在空间中运作。这种降维去除了通常无法感知的高频细节，使模型能够集中捕捉数据的核心语义特征。这种效率使LD（潜在空间）更适合基于似然的生成模型，而不是计算量大的高维像素空间。LDMs的目标函数表述如下：

$L_{LDM} = \mathbb E_{\mathbf x,\epsilon \sim \mathcal N(0,1),t}[\parallel \epsilon - \epsilon_\theta(\mathbf z_t, t) \parallel^2]\qquad(3)$

LDMs的去噪核心，由 $\epsilon_\theta$ 表示，被实例化为一个时间条件的UNet。由于噪声引入过程是确定性的， $\mathbf z_t$ 可以在训练期间从 $\epsilon$ 高效地获得，模型能够通过单次前向传播网络 $D$ 从 $p(\mathbf z)$ 生成图像。这种方法不仅提高了图像合成效率，而且在训练和推理阶段都能以显著较低的计算成本产生高保真图像。

此外，在这些模型中集成条件去噪函数 $\epsilon_\theta(\mathbf z_t, t, \mathbf y)$ 允许在受各种输入形式 $\mathbf y$ （包括文本注释、语义地图和更广泛的图像到图像转换）影响时进行受控合成过程。条件LDM通过关注条件输入和潜在表示之间的相互作用的过程进行学习，其目标函数表述为：

$L_{LDM} = \mathbb E_{\mathbf x,\mathbf y,\epsilon \sim \mathcal N(0,1),t}[\parallel \epsilon - \epsilon_\theta(\mathbf z_t, t, \tau_\theta(\mathbf y)) \parallel^2]\qquad(4)$

这种配置确保了和的联合优化，展示了条件机制的适应性。

3.2 整体架构

如图2所示。DiffMap作为解码器，将扩散模型纳入语义地图分割模型，该模型以周围多视角图像和LiDAR点云作为输入，将其编码为BEV空间并获得融合的BEV特征。然后采用DiffMap作为解码器生成分割图。在DiffMap模块中，将BEV特征作为条件来引导去噪过程。

在这里插入图片描述
图2｜DiffMap架构©️【深蓝AI】编译

· 语义地图构建的基线：

基线主要遵循BEV编码器-解码器范式。编码器部分负责从输入数据（LiDAR和/或相机数据）中提取特征，将其转换为高维表示。同时，解码器通常作为分割头，将高维特征表示映射到相应的分割图。基线在整个框架中起两个主要作用：监督者和控制器。作为监督者，基线生成分割结果作为辅助监督。同时，作为控制器，它提供中间BEV特征 $\mathcal B \in \mathbb R^{H×W×C}$ 作为条件控制变量，以引导扩散模型的生成过程。

· DiffMap模块：

沿袭LDM，作者在基线框架中引入DiffMap模块作为解码器。LDM主要由两部分组成：一个图像感知压缩模块（如VQVAE）和一个使用UNet构建的扩散模型。首先，编码器将地图分割ground truth $\mathbf x$ 编码为潜在空间中的 $\mathbf z= \varepsilon (\mathbf x) \in \mathbb R^{H'×W'×D'}$ ，其中 $D^{'}$ 表示潜在空间的低维度。随后，在低维潜在变量空间中执行扩散和去噪，然后使用解码器 $\mathcal D$ 将潜在空间恢复到原始像素空间。

首先通过扩散过程添加噪声 $\sigma$ ，在每个时间步 $t$ 获得噪声潜在图 $\{\mathbf z_t\}_{t=0}^T$ ，其中 $z_0 = \mathbf z$ 。然后在去噪过程中，UNet作为噪声预测的主干网络。为了增强分割结果的监督部分，并希望DiffMap模型在训练期间直接为实例相关预测提供语义特征。因此，作者将UNet网络结构分为两个分支，一个分支用于预测噪声 $\epsilon$ ，如传统扩散模型，另一个分支用于预测潜在空间中的 $\mathbf z$ 。

如图3所示。获得潜在图预测 $\mathbf z_{\theta}$ 后，将其解码到原始像素空间，作为语义特征图。然后就可以按照HDMapNet提出的方法从中获得实例预测，输出三种不同头的预测：语义分割、实例嵌入和车道方向。这些预测随后用于后处理步骤以矢量化地图。

在这里插入图片描述
图3｜去噪模块©️【深蓝AI】编译

整个过程是一个有条件的生成过程，根据当前传感器输入下获得地图分割结果。其结果的概率分布可以建模为 $p_\theta(\mathbf x|\mathbf y)$ ，其中 $\mathbf x$ 表示地图分割结果， $\mathbf y$ 表示条件控制变量，即BEV特征。作者这里用了两种方式融合控制变量。首先，由于 $\mathbf z_t$ 和BEV特征 $\mathcal B$ 在空间域上具有相同的类别和尺度，将 $\mathcal B$ 调整为潜在空间大小，然后将它们串联作为去噪过程的输入，如公式5所示。

$\mathbf z_t^{'} = concat(\mathbf z, \mathcal B)\qquad(5)$

其次，将交叉注意力机制融入到UNet网络的每一层，其中 $\mathcal B$ 作为key/value， $\mathbf z_t$ 作为query。交叉注意力模块的公式如下：

$Attention(\mathbf z_t^{'}, \mathcal B, \mathcal B) = softmax(\frac{\mathbf z_t^{'} \mathcal B^T}{\sqrt{d}}) \cdot \mathcal B\qquad(6)$

3.3 具体实现

训练：首先训练 VQVAE，将原始分割的真值压缩到潜在空间中。总的训练目标变为：

$\underbrace{\log p(\mathbf x | z_q(\mathbf x))}_{reconstructions \ \ loss} \ + \underbrace{ \parallel sg[z_e(\mathbf x) - e_k] \parallel_2^2 }_{VQ \ loss} +\underbrace{\beta \parallel z_e(\mathbf x) - sg[e] \parallel_2^2 }_{commitment \ \ loss} \qquad(7)$

其中， $z_e(\mathbf x)$ 表示编码器的输出， $e$ 表示嵌入空间， $z_q(\mathbf x)$ 表示 $z_e(\mathbf x)$ 在嵌入空间中最近的嵌入，sg 是停止梯度运算符。通过VQVAE，真值图可以被压缩到潜在空间中，提高生成效率并防止扩散模型过度训练图像像素。

在扩散模型的训练过程中，主要目标是最小化预测图像（或噪声）与其真值之间的重建距离。由于将 UNet 分支解耦，训练目标变成：

$\min_\theta \mathbb E_{q(\mathbf x_0)} E_{q(\epsilon)}( \parallel \mathbf z_\theta - \mathbf z \parallel^2 + \parallel \epsilon_\theta - \epsilon \parallel^2)\qquad(8)$

其中， $\mathbf z_\theta$ 和 $\epsilon_\theta$ 分别对应于图像分支和噪声分支。随后，模型被训练来分别预测图像和噪声。此外，为了实现更高水平的图像生成准确性，作者还引入了基线模型的损失作为辅助监督，包括语义分割的交叉熵损失和HDMapNet中提到的实例嵌入的判别损失。最终的目标函数将扩散模型的损失 $L_{diff}$ 与基线模型的辅助损失 $L_{baseline}$ 结合，如公式9所示：

$\mathcal L = \mathcal L_{diff} + \mathcal L_{baseline}\qquad(9)$

· 推理：

在推理阶段， $\mathbf x_0$ 从一个带噪声的图像开始，并根据训练得到的参数进行迭代去噪。经过多次去噪迭代后得到 $\mathbf z_0$ ，其中噪声变得可以忽略不计。随后，使用VQVAE的解码器将其从潜在空间解码回原始像素空间。对于去噪迭代中的采样，采用DDIM采样器来加速采样。具体通过以下方式从样本 $\mathbf x_t$ 生成样本 $\mathbf x_{t-1}$ ：

$\mathbf x_{t-1} = \sqrt{\alpha_{t-1}} \underbrace{(\frac{\mathbf x_t - \sqrt{1 - \alpha_t }\epsilon_\theta^{(t)}(\mathbf x_t)}{\sqrt{\alpha_t}})}_{predicted \ x_0} + \underbrace{\sqrt{1 - \alpha_{t-1} - \sigma_t^2 }\cdot \epsilon_\theta^{(t)} (\mathbf x_t)} _{direction \ pointing \ to \ \mathbf x_t} \ + \underbrace{\sigma_t \epsilon_t}_{random \ noise} \qquad(10)$

其中， $\epsilon_t \sim \mathcal N(0, I)$ 是与 $\mathbf x_t$ 独立的标准高斯噪声。 $\sigma_t$ 是一个超参数，不同的 $\sigma_t$ 值会导致不同的生成过程。当所有 $t$ 的 $\sigma_t=0$ 时，前向过程在给定 $\mathbf x_{t-1}$ 和 $\mathbf x_0$ 时变得确定性，除了 $t = 1$ ；在生成过程中，随机噪声 $\epsilon_t$ 前的系数变为零。 $\alpha_t$ 是信号率，等于公式（1）中提到的 $\beta_t$ 。

4. 实验过程

4.1 实验细节

· 数据集：

在nuScenes数据集上验证DiffMap。nuScenes数据集包含1000个场景的多视角图像和点云，其中700个场景用于训练，150个用于验证，150个用于测试。nuScenes数据集还包含注释的高清地图语义标签。

· 架构：

使用ResNet-101作为相机分支的主干网络，使用PointPillars作为模型的LiDAR分支主干网络。基线模型中的分割头是基于ResNet-18的FCN网络。对于自编码器，采用VQVAE，该模型在nuScenes分割地图数据集上进行了预训练，以提取地图特征并将地图压缩为基本潜在空间。最后使用UNet来构建扩散网络。

· 训练细节：

使用AdamW优化器训练VQVAE模型30个epoch。使用的学习率调度器是LambdaLR，它以指数衰减模式逐渐降低学习率，衰减因子为0.95。初始学习率设置为，批量大小为8。然后，使用AdamW优化器从头开始训练扩散模型30个epoch，初始学习率为2e-4。采用MultiStepLR调度器，该调度器根据指定的里程碑时间点（0.7、0.9、1.0）和在不同训练阶段的缩放因子1/3来调整学习率。最后将BEV分割结果设置为0.15m的分辨率，并将LiDAR点云体素化。HDMapNet的检测范围为[-30m，30m]×[-15m，15m]m，因此相应的BEV地图大小为400×200，而Superfusion使用[0m，90m]×[-15m，15m]并得到600×200的结果。由于LDM的维度约束（在VAE和UNet中下采样8倍），需要将语义地面实况地图的大小填充到64的倍数。

· 推理细节：

通过在当前BEV特征条件下对噪声地图执行去噪过程20次来获得预测结果。使用3次采样的平均值作为最终的预测结果。

4.2 评估指标

主要针对地图语义分割和实例检测任务进行平评估。且主要集中在三个静态地图元素上：车道边界、车道分隔线和行人横道。

· 语义指标：

使用IoU（交并比）作为预测HD地图M1和地面真值HD地图M2之间的欧拉指标，公式如下：

$IoU(M_1, M_2) = \frac{M_1 \cap M_2 }{ M_1 \cup M_2}\qquad(11)$

· 实例指标：

使用Chamfer距离（CD）评估预测曲线和地面真值曲线之间的空间距离。

$CD_{dir}(C_1,C_2) = \frac{1}{C_1}\sum\limits_{x \in C_1} \min\limits_{y \in C_2} \parallel x - y \parallel_2(12)$

其中C1和C2是预测曲线和地面真值曲线上的点集。典型的Chamfer距离是双向的，预测曲线和地面真值曲线之间的CD计算如下：

$CD_{pred} + CD_{gt} = CD_{dir}(C_1,C_2) + CD_{dir}(C_2,C_1)\qquad(13)$

然后使用AP（平均精度）来衡量实例检测距离，定义如下：

$\frac{1}{10} \sum\limits_{r \in 0.1,0.2,\cdots,1.0} AP_{r}\qquad(14)$

其中 $AP_r$ 是召回率为 $r$ 时的精度。同时，使用CD和IoU来选择真阳性实例。只有当IoU高于一定阈值且CD低于另一个阈值时，该实例才被视为真阳性。实验中IoU阈值设为0.1，CD阈值设为1.0米。

· 多区间评估：

为了更好地探索 DiffMap 在远程检测方面的有效性，将地面真值进一步划分为三个区间：0-30 米、30-60 米和 60-90 米，以公平地与 SuperFusion 进行比较。随后，在这三个区间内，计算不同方法的 IoU、CD 和 AP，旨在全面评估检测结果。

4.3 评估结果

表1显示了语义地图分割的 IoU 得分比较。DiffMap 在所有区间都显示出显著的改善，尤其在车道分隔线和行人横道上取得了最佳结果。

如表2所示，DiffMap方法在平均精度（AP）方面也有显著提升，验证了 DiffMap 的有效性。

如表3所示，将DiffMap范式集成到HDMapNet中时，可以观察到，无论是仅使用摄像头还是摄像头-激光雷达融合方法，DiffMap都能提高HDMapNet的性能。这说明DiffMap方法在各类分割任务上都很有效，包括远距离和近距离检测。然而对于边界，DiffMap的表现并不出色，这是因为边界的形状结构不固定，存在许多难以预测的扭曲，从而使捕捉先验结构特征变得困难。

4.4 消融实验

表4显示了VQVAE中不同下采样因子对检测结果的影响。通过分析DiffMap在下采样因子为4、8、16时的行为可以看到，当下采样因子设置为8x时，结果最佳。

此外，作者还测量了删除与实例相关的预测模块对模型的影响，如表5所示。实验表明，添加此预测进一步提高了IOU。

4.5 可视化

图4展示了DiffMap和基线（HDMapNet-fusion）在复杂场景中的比较。很明显，基线的分割结果忽略了元素内部的形状属性和一致性。相比之下，DiffMap展示了能够纠正这些问题的能力，产生与地图规范很好对齐的分割输出。具体而言，在案例（a）、（b）、（d）、（e）、（h）和（l）中，DiffMap有效地纠正了不准确预测的人行横道。在案例（c）、（d）、（h）、（i）、（j）和（l）中，DiffMap完成或删除了不准确的边界，使结果更接近于现实的边界几何。此外，在案例（b）、（f）、（g）、（h）、（k）和（l）中，DiffMap解决了分隔线断裂的问题，确保了相邻元素的平行性。

5. 总结展望

在本文中，作者设计的DiffMap网络是一种利用潜在扩散模型学习地图结构先验的新方法，从而增强了传统的地图分割模型。该方法可以作为任何地图分割模型的辅助工具，其预测结果在远近距离检测场景中都有显著改善。由于该方法具有很强的扩展性，适合研究其他类型的先验信息，例如可以将SD地图先验集成到DiffMap的第二模块中，从增强其性能表现。将来有望在矢量化地图构建中继续有所进步。

编译｜巴巴塔

审核｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。