[CVPR 2022]Cross-view Transformers for real-time Map-view Semantic Segmentation

论文网址:Cross-View Transformers for Real-Time Map-View Semantic Segmentation

论文代码:cross_view_transformers/cross_view_transformer at master · bradyz/cross_view_transformers · GitHub

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Related Works

2.4. Cross-view transformers

2.4.1. Cross-view attention

2.4.2. A cross-view transformer architecture

2.5. Implementation Details

2.6. Results

2.6.1. Comparison to prior work

2.6.2. Ablations of cross-view attention

2.6.3. Camera-aware positional embeddings

2.6.4. Accuracy vs distance

2.6.5. Robustness to sensor dropout

2.6.6. Qualitative Results

2.6.7. Geometric reasoning in cross-view attention

2.7. Conclusion

3. Reference


1. 心得

(1)虽然人需要挑战自己,但也不能总是挑战自己

2. 论文逐段精读

2.1. Abstract

        ①They implement segmentation on camera-aware cross-view attention way

2.2. Introduction

        ①Depth projection and measurement is a bottleneck

        ②Their cross view Transformer will never reason geometry but "learns to map between views through a geometry-aware positional embedding"

        ③Schematic of cross view Transformer:

2.3. Related Works

(1)Monocular 3D object detection

        ①Lists monocular detection methods, which convert 3D object to 2D and predict the depth

monocular adj. 单眼的  n. 单目;单筒望远镜

(2)Depth estimation

        ①Depth estimation methods rely on camera and accurate calibration

(3)Semantic mapping in the map-view

        ①This method divides input and output in two coordinate frames, where inputs are in calibrated camera views, outputs are rasterized onto a map

        ②The authors rekon that implicit geometric reasoning performs as well as explicit geometric models

rasterized  v. 栅格化

2.4. Cross-view transformers

        ①Monocular views: n with (I_k,K_k,R_k,t_k)_{k=1}^n, where I_k\in\mathbb{R}^{H\times W\times3} denotes input image, K_k\in\mathbb{R}^{3\times3} denotes camera intrisics, R_k\in\mathbb{R}^{3\times3} is  extrinsic rotation, t_k\in\mathbb{R}^3 denotes translation relative to the center of the ego-vehicle

        ②They aim to predict a binary semantic segmentation mask y\in\left\{0,1\right\}^{h\times w\times C}

        ③Pipeline of cross-view transformer:

where positional embedding shares the same encoder with image

2.4.1. Cross-view attention

        ①For any world coordinate x^{(W)}\in\mathbb{R}^3, perspective transformation converts it to corresponding image coordinate x^{(I)}\in\mathbb{R}^3 by:

x^{(I)}\simeq K_kR_k(x^{(W)}-t_k)

where \simeq denotes equality up to a scale factor, x^{(I)}=\left ( \cdot , \cdot, 1 \right ) adopts homogeneous coordinates

        ②Reconstruct geometric relationship between world and image coordinates to cosine similarity:

\begin{aligned} sim_k(x^{(I)},x^{(W)})=\frac{\left(R_k^{-1}K_k^{-1}x^{(I)}\right)\cdot\left(x^{(W)}-t_k\right)}{\|R_k^{-1}K_k^{-1}x^{(I)})\|\|(x^{(W)}-t_k\|} \end{aligned}

(1)Camera-aware positional encoding

        ①Each unprojected image coordinate d_{k,i}=R_k^{-1}K_k^{-1}x_i^{(I)} is direction vector from the origin t_k of camera k to the image plane at depth 1

        ②Encoding direction vector to \delta_{k,i}\in\mathbb{R}^{D}, D=1 by MLP

        ③Learned positional encoding: c^{(0)}\in\mathbb{R}^{w\times h\times D}

        ④Generating new embedding c^{(1)},c^{(2)},\ldots. by learning every element 

(2)Map-view latent embedding

        ①Combining 2 positional embeddings:

sim(\delta_{k,i},\phi_{k,i},c_j^{(n)},\tau_k)=\frac{(\delta_{k,i}+\phi_{k,i})\cdot\left(c_j^{(n)}-\tau_k\right)}{\|\delta_{k,i}+\phi_{k,i}\|\|c_j^{(n)}-\tau_k\|}

(3)Cross-view attention

        ①Image encoder: pretrained and fine tuned EfficientNet-B4

2.4.2. A cross-view transformer architecture

        ①Patch embedding from encoder: \{\phi_1^1,\phi_1^2,\ldots,\phi_n^R\} where R is the number of resolutions

2.5. Implementation Details

(1)Architecture

        ①Two feature scales of images: (28, 60) and (14, 30) which are 8x and 16x downscaling

        ②The grid size w=h=25

        ③Head of attention: 4 with embedding size d_{head}=64

        ④Decoder: consists of three (bilinear upsample + conv) layers

        ⑤Output resolution: 200 \times 200

(2)Training

        ①Loss: focal loss

        ②Batch size: 4 per GPU

        ③Epoch: 30

        ④Initial learning rate: 1e-2 with 1e-7 weight decay by AdamW

2.6. Results

(1)Dataset

        ①Dataset: nuScenes

        ②Scenes: 1k over different weather, time and traffic conditions

        ③Frames: 40 in 20 seconds in nuScenes, 10k in Argoverse dataset

        ④Sample: 40k

        ⑤View: 360° with 6 camera views

        ⑥Each camera view has calibrated intrinsics K and extrinsics (R, t) at every timestep

        ⑦Default reshaping size: 224 × 448

        ⑧Annotating 3D bounding box by LiDAR data

        ⑨Generating ground truth label by projecting 3D box annotations onto the ground plane with a resolution of (200, 200)

(2)Evaluation

        ①Setting 1 uses a 100m×50m area around the vehicle and samples a map at a 25cm resolution

        ②Setting 2 uses a 100m×100m area around the vehicle, with a 50cm sampling resolution

2.6.1. Comparison to prior work

        ①They compared their model with single-timestep models:

        ②Comparison on different datasets where top rows are on nuScenes and bottom are on Argoverse:

2.6.2. Ablations of cross-view attention

        ①Ablations of cross-view attention mechanism:

2.6.3. Camera-aware positional embeddings

        ①Ablations of the camera-aware positional embeddings:

2.6.4. Accuracy vs distance

        ①Performance along with increasing distance:

        ②Qualitative results on scenes with varying degrees of occlusion:

where left side overhead view is the predicted result and the rights are ground truth

2.6.5. Robustness to sensor dropout

        ①How number of cameras affect performance:

2.6.6. Qualitative Results

        ①就是上面那个有真实场景图的大图,作者说远处的或被遮挡的车辆不能很好感知

2.6.7. Geometric reasoning in cross-view attention

        ①Visualization of cross-view attention:

2.7. Conclusion

        ~

3. Reference

Zhou, B. & Krähenbühl, P. (2022) 'Cross-view Transformers for real-time Map-view Semantic Segmentation', CVPR.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962754.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java 中线程的使用

文章目录 Java 线程1 进程2 线程3 线程的基本使用(1)继承 Thread 类,重写 run 方法(2)实现 Runnable 接口,重写 run 方法(3)多线程的使用(4)线程的理解&#…

手撕Vision Transformer -- Day1 -- 基础原理

手撕Vision Transformer – Day1 – 基础原理 目录 手撕Vision Transformer -- Day1 -- 基础原理Vision Transformer (ViT) 模型原理1. Vit 网络结构图2. 背景3. 模型架构3.1 图像切块(Patch Embedding)3.2 添加位置编码(Positional Encoding…

【AI】DeepSeek 概念/影响/使用/部署

在大年三十那天,不知道你是否留意到,“deepseek”这个词出现在了各大热搜榜单上。这引起了我的关注,出于学习的兴趣,我深入研究了一番,才有了这篇文章的诞生。 概念 那么,什么是DeepSeek?首先百…

Java锁自定义实现到aqs的理解

专栏系列文章地址:https://blog.csdn.net/qq_26437925/article/details/145290162 本文目标: 理解锁,能自定义实现锁通过自定义锁的实现复习Thread和Object的相关方法开始尝试理解Aqs, 这样后续基于Aqs的的各种实现将能更好的理解 目录 锁的…

html的字符实体和颜色表示

在HTML中,颜色可以通过以下几种方式表示,以下是具体的示例: 1. 十六进制颜色代码 十六进制颜色代码以#开头,后面跟随6个字符,每两个字符分别表示红色、绿色和蓝色的强度。例如: • #FF0000:纯红…

Golang 并发机制-1:Golang并发特性概述

并发是现代软件开发中的一个基本概念,它使程序能够同时执行多个任务,从而提高效率和响应能力。在本文中,我们将探讨并发性在现代软件开发中的重要性,并深入研究Go处理并发任务的独特方法。 并发的重要性 增强性能 并发在提高软…

three.js用粒子使用canvas生成的中文字符位图材质

three.js用粒子使用canvas生成中文字符材质 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Three.…

《逆向工程核心原理》第三~五章知识整理

查看上一章节内容《逆向工程核心原理》第一~二章知识整理 对应《逆向工程核心原理》第三章到第五章内容 小端序标记法 字节序 多字节数据在计算机内存中存放的字节顺序分为小端序和大端序两大类 大端序与小端序 BYTE b 0x12; WORD w 0x1234; DWORD dw 0x12345678; cha…

2025年数学建模美赛 A题分析(4)楼梯使用人数模型

2025年数学建模美赛 A题分析&#xff08;1&#xff09;Testing Time: The Constant Wear On Stairs 2025年数学建模美赛 A题分析&#xff08;2&#xff09;楼梯磨损分析模型 2025年数学建模美赛 A题分析&#xff08;3&#xff09;楼梯使用方向偏好模型 2025年数学建模美赛 A题分…

【cocos creator】【模拟经营】餐厅经营demo

下载&#xff1a;【cocos creator】模拟经营餐厅经营

29.Word:公司本财年的年度报告【13】

目录 NO1.2.3.4 NO5.6.7​ NO8.9.10​ NO1.2.3.4 另存为F12&#xff1a;考生文件夹&#xff1a;Word.docx选中绿色标记的标题文本→样式对话框→单击右键→点击样式对话框→单击右键→修改→所有脚本→颜色/字体/名称→边框&#xff1a;0.5磅、黑色、单线条&#xff1a;点…

高性能消息队列Disruptor

定义一个事件模型 之后创建一个java类来使用这个数据模型。 /* <h1>事件模型工程类&#xff0c;用于生产事件消息</h1> */ no usages public class EventMessageFactory implements EventFactory<EventMessage> { Overridepublic EventMessage newInstance(…

neo4j初识

文章目录 一 图论基础二 柯尼斯堡七桥问题2.1 问题背景2.2 欧拉的解决3.1 核心概念3.2 核心优势3.3 应用场景3.4 技术特性3.5 版本与部署3.6 示例&#xff1a;社交关系查询3.7 限制与考量 四 图论与 Neo4j 的关联4.1 数据建模4.2 高效遍历4.3 应用场景 五 示例&#xff1a;用 N…

吴恩达深度学习——超参数调试

内容来自https://www.bilibili.com/video/BV1FT4y1E74V&#xff0c;仅为本人学习所用。 文章目录 超参数调试调试选择范围 Batch归一化公式整合 Softmax 超参数调试 调试 目前学习的一些超参数有学习率 α \alpha α&#xff08;最重要&#xff09;、动量梯度下降法 β \bet…

行业规范要当作业务实体画出来吗

第五元素 总觉得这些没有逻辑的实体&#xff0c;在绘制的时候不应该绘出来&#xff0c;他们没有责任啊。 比如以下:查阅规范 感觉不太对 UMLChina潘加宇 你这个规范是一个电脑系统还是一本书 第五元素 是书 UMLChina潘加宇 书没有智能&#xff0c;唯一暴露的接口是“翻”…

冯·诺依曼体系结构

目录 冯诺依曼体系结构推导 内存提高冯诺依曼体系结构效率的方法 你使用QQ和朋友聊天时&#xff0c;整个数据流是怎么流动的&#xff08;不考虑网络情况&#xff09; 与冯诺依曼体系结构相关的一些知识 冯诺依曼体系结构推导 计算机的存在就是为了解决问题&#xff0c;而解…

Qt之数据库操作三

主要介绍qt框架中对数据库的增加&#xff0c;删除和修改功能。 软件界面如下 程序结构 tdialogdata.h中代码 #ifndef TDIALOGDATA_H #define TDIALOGDATA_H#include <QDialog> #include<QSqlRecord> namespace Ui { class TDialogData; }class TDialogData : pub…

8.攻防世界Web_php_wrong_nginx_config

进入题目页面如下 尝试弱口令密码登录 一直显示网站建设中&#xff0c;尝试无果&#xff0c;查看源码也没有什么特别漏洞存在 用Kali中的dirsearch扫描根目录试试 命令&#xff1a; dirsearch -u http://61.147.171.105:53736/ -e* 登录文件便是刚才登录的界面打开robots.txt…

算法基础学习——快排与归并(附带java模版)

快速排序和归并排序是两种速度较快的排序方式&#xff0c;是最应该掌握的两种排序算法&#xff0c; &#xff08;一&#xff09;快速排序&#xff08;不稳定的&#xff09; 基本思想&#xff1a;分治 平均时间复杂度&#xff1a;O(nlogn) / 最慢O(n^2) / 最快O(n) 步骤&…

51单片机开发——I2C通信接口

I2C是微电子通信控制领域广泛采用的一种总线标准。 起始和停止信号&#xff1a; void iic_start(void) {IIC_SDA1;//如果把该条语句放在SCL后面&#xff0c;第二次读写会出现问题delay_10us(1);IIC_SCL1;delay_10us(1);IIC_SDA0; //当SCL为高电平时&#xff0c;SDA由高变为低d…