BEVFormer 论文阅读

论文链接

BEVFormer

  • BEVFormer,这是一个将Transformer和时间结构应用于自动驾驶的范式,用于从多相机输入中生成鸟瞰(BEV)特征
  • 利用查询来查找空间/时间,并相应地聚合时空信息,从而为感知任务提供更强的表示

0. Abstract

  • BEVFormer,通过时空转换器学习统一的BEV表示,以支持多个自动驾驶感知任务
  • 过预定义的网格状BEV查询与空间和时间空间相互作用,以利用空间和时间信息
  • 为了聚合空间信息,设计了空间交叉注意力,每个BEV查询从不同摄像机视图中提取感兴趣区域的空间特征
  • 对于时间信息,提出了时间自注意力,以循环地融合历史BEV信息

1. Abstract

  • 相比于基于激光雷达的对应方法,摄像头拥有能够检测远距离物体和识别基于视觉的道路元素(例如,交通信号灯、停车线)的优势
  • 基于单目框架和跨摄像头后处理的方法性能和效率较低
  • 作为单目框架的替代方案,更统一的框架是从多摄像头图像中提取整体表示
    • 鸟瞰图(BEV)是周围场景的常用表示,清楚地呈现了物体的位置和规模
    • BEV 是连接时空空间的理想桥梁,利用 BEV 特征循环传递从过去到现在的时间信息,与 RNN 异曲同工
  • BEVFormer 包含三个关键设计
    • 网格状 BEV 查询,通过注意力机制灵活地融合空间和时间特征
    • 空间交叉注意力模块,聚合来自多个维度的空间特征
    • 时间自注意力模块,用于从历史 BEV 特征中提取时间信息

该模型可以与不同的特定任务头,进行端到端 3D 对象检测和地图分割

本文的主要贡献

  • 提出了 BEVFormer,**一种时空转换器编码器,**可将多摄像机和/或时间戳输入投射到 BEV 表示中。凭借统一的 BEV 特征,可以同时支持多个自动驾驶感知任务,包括 3D 检测和地图分割
  • 设计了可学习的 BEV 查询以及空间交叉注意层和时间自注意层,分别从跨摄像机查找空间特征和从历史 BEV 查找时间特征,然后将它们聚合成统一的 BEV 特征
  • 在多个具有挑战性的基准上评估了所提出的 BEVFormer。始终实现了改进的性能

2. Related Work

2.1 Transformer-based 2D perception

  • DETR 使用一组对象查询直接由交叉注意力解码器生成检测结果,但训练时间长
  • Deformable DETR 可变形注意力与局部感兴趣区域交互,仅对每个参考点附近的 K 个点进行采样并计算注意力结果,效率很高并显着缩短了训练时间

2.2 Camera-based 3D Perception

经典方案

  • 基于 2D 边界框预测 3D 边界框
  • 将图像特征转换为 BEV 特征,并从自上而下的视图预测 3D 边界框
  • 利用深度估计或分类深度分布中的深度信息将图像特征转换为 BEV 特征

**多相机生成 BEV **

  • 通过逆透视映射 (IPM) 将透视图转换为 BEV
  • 根据深度分布生成 BEV 特征
  • 通过堆叠来自多个时间戳的BEV特征来考虑时间信息

3. BEVFormer

提出了一种新的基于 Transformer 的 BEV 生成框架,它可以通过注意力机制有效聚合来自多视图相机的时空特征和历史 BEV 特征

3.1 Overall Architecture

  • BEVFormer 有 6 个编码器层,每个编码器层都遵循 Transformer 的传统结构

  • 除此之外有三种定制设计,即 BEV 查询、空间交叉注意力和时间自注意力

    • BEV 查询:网格状的可学习参数,旨在通过注意机制从多摄像机视图查询 BEV 空间中的特征

    • 空间交叉注意力和时间自注意力:与 BEV 查询一起使用的注意力层,用于根据 BEV 查询查找和聚合多摄像机图像中的空间特征以及历史 BEV 中的时间特征

在这里插入图片描述

3.2 BEV Queries

  • 预先定义一组网格状的可学习参数 Q ∈ R H × W × C Q ∈ \mathbb{R}^{H×W×C} QRH×W×C 作为 BEVFormer 的查询,其中 H、W 是 BEV 平面的空间形状
  • 位于 Q 的 p = ( x , y ) p = (x, y) p=(x,y) 处的查询 Q p ∈ R 1 × C Q_p ∈ \mathbb{R}^{1×C} QpR1×C 负责 BEV 平面中相应的网格单元区域
  • BEV 平面中的每个网格单元对应于现实世界的 s 米大小。默认情况下,BEV 功能的中心对应于本车的位置
  • 将 BEV 查询 Q 输入到 BEVFormer 之前将可学习的位置嵌入添加到其中

3.3 Spatial Cross-Attention

  • 多摄像头的 3D 感知输入规模大,故开发了基于可变形注意力的空间交叉注意力

  • 每个 BEV 查询 Q p Q_p Qp 仅与其跨摄像机视图的感兴趣区域交互

    • 首先将 BEV 平面上的每个查询提升为类似柱子的查询,从柱子中采样 Nref 3D 参考点,然后将这些点投影到 2D 视图。投影的2D点只能落在某些视图上,而其他视图不会命中

    • 将点击视图称为 Vhit。将这些 2D 点视为查询 Q p Q_p Qp 的参考点,并从这些参考点周围的命中视图 Vhit 中采样特征

    • 对采样特征进行加权求和,作为空间交叉注意力(SCA)的输出
      S C A ( Q p , F t ) = 1 ∣ V h i t ∣ ∑ i ∈ V h i t ∑ j = 1 N r e f D e f o r m A t t n ( Q p , P ( p , i , j ) , F t i ) (Eq.2) SCA(Q_p, F_t) = \frac{1}{|V_{hit}|} \underset{i∈Vhit}∑ \sum\limits^{N_{ref}}_{j=1} DeformAttn(Q_p, \mathcal{P}(p,i,j), F^i_t ) \tag{Eq.2} SCA(Qp,Ft)=Vhit1iVhitj=1NrefDeformAttn(Qp,P(p,i,j),Fti)(Eq.2)
      其中 i 索引相机视图,j 索引参考点,Nref 是每个 BEV 查询的总参考点。 F t i F_t^i Fti 是第 i 个摄像机视图的特征。对于每个 BEV 查询 Q p Q_p Qp,我们使用投影函数 P ( p , i , j ) \mathcal{P}(p,i,j) P(p,i,j) 来获取第 i 个视图图像上的第 j 个参考点

      对于投影函数:

      • 首先计算与位于 Q 的 p = ( x , y ) p=(x,y) p=(x,y) 处的查询 Q p Q_p Qp 对应的现实世界位置 ( x ′ , y ′ ) (x',y') (x,y)
        x ′ = ( x − W 2 ) × s ;      y ′ = ( y − H 2 ) × s   (Eq.3) x'=(x-\frac{W}{2})\times s;\ \ \ \ y'=(y-\frac{H}{2})\times s \ \tag{Eq.3} x=(x2W)×s;    y=(y2H)×s (Eq.3)
        H,W是BEV查询的空间形状,s 是BEV网格的分辨率大小, ( x ′ , y ′ ) (x',y') (xy) 是本车位置为原点的坐标

      • 预先定义了一组锚点高度 { z j ′ } j = 1 N r e f \{z'_j\}^{N_{ref}}_{j=1} {zj}j=1Nref,以确保我们能够捕获出现在不同高度的线索。这样,对于每个查询 Q p Q_p Qp,我们获得了3D参考点 ( x ′ , y ′ , z j ′ ) j = 1 N r e f (x',y',z'_j)^{N_{ref}}_{j=1} (x,y,zj)j=1Nref 的支柱
        P ( p , i , j ) = ( x i j , y i j ) , w h e r e    z i j ⋅ [ x i j    y i j    1 ] T = T i ⋅ [ x ′    y ′    z j ′    1 ] T \begin{align} \mathcal{P}(p,i,j)&=(x_{ij},y_{ij}), \\ where\ \ z_{ij} \cdot [x_{ij}\ \ y_{ij}\ \ 1]^T &= T_i\cdot[x'\ \ y'\ \ z'_j\ \ 1]^T \tag{Eq.4} \end{align} P(p,i,j)where  zij[xij  yij  1]T=(xij,yij),=Ti[x  y  zj  1]T(Eq.4)

3.4 Temporal Self-Attention

  • 给定当前时间戳 t t t 处的 BEV 查询 Q Q Q 和时间戳 t − 1 t−1 t1 处保留的历史 BEV 特征 B t − 1 B_{t−1} Bt1

  • 首先根据自我运动将 B t − 1 B_{t−1} Bt1 Q Q Q 对齐,以使同一网格处的特征对应于相同的现实世界位置

  • 将对齐的历史 BEV 特征 B t − 1 B_{t−1} Bt1 表示为 B t − 1 ′ B'_{t−1} Bt1

  • 时间自注意力(TSA)层对特征之间的时间联系进行建模
    T S A ( Q p , { Q , B t − 1 ′ } ) = ∑ V ∈ { Q , B t − 1 ′ } D e f o r m A t t n ( Q p , p , V ) , TSA(Q_p,\{Q, B'_{t−1}\}) = \underset{V ∈\{Q,B'_{t−1}\}}{\sum} DeformAttn(Q_p,p,V), TSA(Qp,{Q,Bt1})=V{Q,Bt1}DeformAttn(Qp,p,V),

    • Q p Q_p Qp 表示位于 p = ( x , y ) p = (x, y) p=(x,y) 处的 BEV 查询
    • 时间自注意力中的偏移量 Δ p Δp Δp 是通过 Q Q Q B t − 1 ′ B'_{t−1} Bt1 的串联来预测的
    • 对于每个序列的第一个样本,时间自注意力将退化为没有时间信息的自注意力,用重复的 BEV 查询 { Q , Q } \{Q,Q\} {Q,Q} 替换 BEV 特征 { Q , B t − 1 ′ } \{Q,B'_{t−1}\} {Q,Bt1}
  • 时间自注意力可以更有效地建模长时间依赖性

  • BEVFormer 从之前的 BEV 特征中提取时间信息,而不是多个堆叠 BEV 特征,因此需要更少的计算成本并受到更少的干扰信息

3.5 Applications of BEV Features

3D 目标检测

  • 基于 2D 检测器 Deformable DETR 设计了一个端到端 3D 检测头。修改包括使用单尺度 BEV 特征 Bt 作为解码器的输入
  • 预测 3D 边界框和速度而不是 2D 边界框,以及仅使用 L1 损失来监督 3D 边界框回归
  • 借助检测头,模型可以端到端预测 3D 边界框和速度,无需 NMS 后处理

地图分割

  • 基于 2D 分割方法 Panoptic SegFormer 设计了一个地图分割头
  • 基于BEV的地图分割与常见的语义分割基本相同

3.6 Implementation Details

训练阶段

  • 对于时间戳 t 的每个样本,从过去 2 秒的连续序列中随机采样另外 3 个样本,将这四个样本的时间戳记为 t−3、t−2、t−1 和 t
  • 循环生成 BEV 特征 { B t − 3 , B t − 2 , B t − 1 } \{B_{t−3}, B_{t−2}, B_{t−1}\} {Bt3,Bt2,Bt1},并且此阶段不需要梯度
  • 对于时间戳 t−3 的第一个样本,没有先前的 BEV 特征,并且时间自注意力退化为自注意力
  • 模型基于多相机输入和先验BEV特征 B t − 1 B_{t−1} Bt1 生成BEV特征 B t B_t Bt,使得 B t B_t Bt包含跨越四个样本的时间和空间线索
  • 最后,我们将 BEV 特征 B t B_t Bt 输入到检测和分割头中并计算相应的损失函数

推理阶段

  • 在推理阶段,按时间顺序评估视频序列的每一帧
  • 前一个时间戳的BEV特征被保存并用于下一个时间戳

4. Experiments

数据集

  • nuScenes Dataset
  • Waymo Open Dataset

4.1 Experimental Settings

  • 两种主干:从 FCOS3D 检查点初始化的 ResNet101-DCN 和从 DD3D 检查点初始化的VoVnet-99
  • 利用 FPN 的输出多尺度特征,大小为 1/16、1/32、1/64,维度为 C = 256
  • 对于nuScenes上的实验,BEV查询的默认大小为200×200,X轴和Y轴的感知范围为[−51.2m,51.2m],BEV网格的分辨率s的大小为0.512m
  • 用 24 个时期训练模型,学习率为 2 × 1 0 − 4 2×10^{−4} 2×104
  • 对于 Waymo 上的实验,BEV查询的默认空间形状为300×220,X轴的感知范围为[−35.0m,75.0m] Y 轴为 [−75.0m, 75.0m]。每个网格的分辨率 s 的大小为0.5m

Baseline

  • 为了消除任务头的影响并公平地比较其他 BEV 生成方法,使用 VPN 和 Lift-Splat 来替换我们的 BEVFormer 并保持任务头和其他设置相同
  • 通过将时间自注意力调整为普通自注意力而不使用历史 BEV 特征,将 BEVFormer 改编成名为 BEVFormer-S 的静态模型

4.2 3D Object Detection Results

4.3 Multi-tasks Perception Results

4.4 Ablation Study

空间交叉注意力的有效性

在可比较的模型规模下,可变形注意力明显优于其他注意力机制。全局注意力消耗过多的GPU内存,点交互的感受野有限。稀疏注意力可以实现更好的性能,因为它与先验确定的感兴趣区域交互,平衡感受野和 GPU 消耗

时间自注意力的有效性

时间信息的作用主要有以下几个方面:

  • 时间信息的引入极大地有利于速度估计的准确性;
  • 利用时间信息,预测物体的位置和方向更加准确;
  • 由于时间信息包含过去的对象线索,我们在严重遮挡的对象上获得了更高的召回率

模型规模和延迟

从三个方面消除了 BEVFormer 的尺度,包括是否使用多尺度视图特征、BEV 查询的形状和层数,以验证性能和推理延迟之间的权衡

4.5 Visualization Results

5. Discussion and Conclusion

  • 提出了 BEVFormer 从多摄像头输入生成鸟瞰图特征。 BEVFormer 可以有效聚合空间和时间信息并生成强大的 BEV 功能,同时支持 3D 检测和地图分割任务。

局限性:基于相机的方法在效果和效率上与基于激光雷达的方法仍然存在一定的差距。从 2D 信息准确推断 3D 位置仍然是基于相机的方法的长期挑战

更广泛的影响:BEVFormer 所展示的优势,例如更准确的速度估计和对低可见度物体的更高召回率,对于构建更好、更安全的自动驾驶系统及其他系统至关重要

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/135206.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

功能案例 -- 通过开关,改变白天和黑夜

效果展示 代码展示 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><style>:root {--default-bac-color: #f…

ArduPilot开源代码之Aocoda-RC F405V2 Mark4 7“ PNP适配

ArduPilot开源代码之Aocoda-RC F405V2 Mark4 10"适配 1. 源由2. 安装2.1 Installing Ground Station (GCS) software2.2 Autopilot System Assembly Instructions2.3 Loading Firmware2.4 Connect Mission Planner to AutoPilot 3. 配置3.1 Basic System Overview3.2 Fram…

web前端开发第4次Dreamweave课堂练习/html练习代码《出版界推出一批纪念抗美援朝胜利70周年主题图书》

目标图片&#xff1a; 文字素材&#xff1a; 出版界推出一批纪念抗美援朝胜利70周年主题图书 2023-08-01来源&#xff1a;新华社 为纪念抗美援朝战争胜利70周年&#xff0c;出版界集中推出了“抗美援朝亲历记丛书”《新中国立国之战——抗美援朝战争的回顾与思考》《毛泽东与…

华为防火墙2种局域网内远程监控其它端口的方法

防火墙必须要工作在三层&#xff0c;接口上有地址 第一种用ip-link 这种方法是如果监测的接口故障后&#xff0c;自身优先级降低2 FW3 ip-link check enable ip-link 1 destination 1.1.1.1 interface g0/0/0 mode icmp hrp track ip-link 1 active FW4 ip-link check …

hive和spark-sql中 日期和时间相关函数 测试对比

测试版本&#xff1a; hive 2.3.4 spark 3.1.1 hadoop 2.7.7 1、增加月份 add_months(timestamp date, int months)add_months(timestamp date, bigint months)Return type: timestampusage:add_months(now(),1) 2、增加日期 adddate(timestamp startdate, int days)…

单链表指定结点的后插 前插操作

指定结点的后插操作 #define NULL 0typedef struct LNode {int data;struct LNode* next; }LNode, * LinkList;//后插操作&#xff1a;在p结点后插入元素e bool InsertNextNode(LNode* p, int e) {if (p NULL)return false;LNode* s (LNode*)malloc(sizeof(LNode));if (s N…

【MySQL】列属性

文章目录 CHAR和VARCHAR插入单行 INSERT INTO插入多行插入分层行 LAST_INSERT_IN()创建表复制 CREAT TABLE AS更新单行 UPDATE...SET更新多行在UPDATES中使用子查询【需着重复习】删除行 DELETE恢复数据库到原始状态 CHAR和VARCHAR CHAR(50)&#xff1a;存储文本占5个字符&…

Windows10 安装 Ubuntu(WSL2)

Windows10 安装 Ubuntu(WSL2)&#xff1a;因为 Ubuntu(WSL1) 不具备调试功能&#xff0c;所以尽可能安装 Ubuntu(WSL2)。 具体流程如下&#xff1a; 1. 什么是WSL Windows Subsystem for Linux&#xff08;简称WSL&#xff09;&#xff0c;Windows下的 Linux 子系统&#xff…

面试10000次依然会问的【ThreadLocal】,你还不会?

ThreadLocal简介与基本概念 ThreadLocal&#xff0c;即线程局部变量&#xff0c;是Java语言中用于实现线程数据隔离的一个重要类。这种机制允许在多线程环境中&#xff0c;每个线程都有自己的变量副本&#xff0c;从而使得每个线程都可以独立地改变自己的副本&#xff0c;而不…

【龙芯固件】ACPI——简介

一、 什么是ACPI ACPI是Hewlett-Packard, Intel, Microsoft, Phoenix, 和Toshiba共同制定的一个开放的行业规范。 ACPI由很多表组成&#xff0c;包括&#xff1a;RSDP&#xff0c;SDTH&#xff0c;RSDT&#xff0c;FADT&#xff0c;FACS&#xff0c;DSDT&#xff0c;SSDT&…

【操作系统面试题(32道)与面试Linux命令大全】

文章目录 操作系统面试题引论1.什么是操作系统&#xff1f;2.操作系统主要有哪些功能&#xff1f; 操作系统结构3.什么是内核&#xff1f;4.什么是用户态和内核态&#xff1f;5.用户态和内核态是如何切换的&#xff1f; 进程和线程6.并行和并发有什么区别&#xff1f;7.什么是进…

(2023|CVPR,扩散,主体标识符,先验保存损失)DreamBooth:微调文本到图像的扩散模型以实现主题驱动的生成

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 公众号&#xff1a;EDPJ&#xff08;添加 VX&#xff1a;CV_EDPJ 或直接进 Q 交流群&#xff1a;922230617 获取资料&#xff09; 目录 0. 摘要 1. 简介 2. 相关工作 3. 方法 3.…

Java 面试题之 Logback 打印日志是如何获取当前方法名称的?

在 Java 中&#xff0c;有四种方法可以获取当前正在执行方法体的方法名称&#xff0c;分别是&#xff1a; 使用 Thread.currentThread().getStackTrace() 方法 使用异常对象的 getStackTrace() 方法 使用匿名内部类的 getClass().getEnclosingMethod() 方法 Java 9 的 Stack…

Clickhouse学习笔记(10)—— 查询优化

单表查询 Prewhere 替代 where prewhere与where相比&#xff0c;在过滤数据的时候会首先读取指定的列数据&#xff0c;来判断数据过滤&#xff0c;等待数据过滤之后再读取 select 声明的列字段来补全其余属性 简单来说就是先过滤再查询&#xff0c;而where过滤是先查询出对应…

[LeetCode周赛复盘] 第 371 场周赛20231112

[LeetCode周赛复盘] 第 371 场周赛20231112 一、本周周赛总结100120. 找出强数对的最大异或值 I1. 题目描述2. 思路分析3. 代码实现 100128. 高访问员工1. 题目描述2. 思路分析3. 代码实现 100117. 最大化数组末位元素的最少操作次数1. 题目描述2. 思路分析3. 代码实现 100124…

Linux tail命令:显示文件结尾的内容

tail 命令和 head 命令正好相反&#xff0c;它用来查看文件末尾的数据&#xff0c;其基本格式如下&#xff1a; [rootlocalhost ~]# tail [选项] 文件名 此命令常用的选项及含义 【例 1】查看 /etc/passwd 文件最后 3 行的数据内容。 [rootlocalhost ~]# tail -n 3 /etc/passwd…

全域旅游“一机游”智慧旅游平台解决方案:PPT全文48页,附下载

关键词&#xff1a;智慧文旅解决方案&#xff0c;智慧旅游解决方案&#xff0c;智慧旅游平台建设方案&#xff0c;智慧文旅综合运营平台&#xff0c;智慧文旅建设方案 一、智慧文旅一机游定义 智慧文旅一机游是一种新型的旅游方式&#xff0c;它通过智能化的设备和系统&#…

(一)正点原子I.MX6ULL kernel6.1移植

一、概述 学完了正点原子的I.MX6ULL移植&#xff0c;正点原子的教程是基于Ubuntu18&#xff0c;使用的是4.1.15的内核&#xff0c;很多年前的了。NXP官方也发布了新的6.1的内核&#xff0c;以及2022.04的uboot。 本文分享一下基于Ubuntu22.04&#xff08;6.2.0-36-generic&…

发送失败的RocktMQ消息,你遇到过吗?

背景 需要通过flink同时向测试和线上的RocketMQ中写入数据 现象 在程序中分别创建了两个MqProducer&#xff0c;设置了不同的nameServerAddr&#xff0c;分别调用不同的producer向不同环境发消息&#xff0c;返回发送成功&#xff0c;但是在线上MQ中却查不到数据&#xff0…

分布式理论基础:CAP定理

什么是CAP CAP原则又称CAP定理&#xff0c;指的是在一个分布式系统中&#xff0c;Consistency&#xff08;一致性&#xff09;、 Availability&#xff08;可用性&#xff09;、Partition tolerance&#xff08;分区容错性&#xff09;这三个基本需求&#xff0c;最多只能同时…