【论文阅读】三平面相关与变体

文章目录

  • 1. 【CVPR2023】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
    • 动机
    • 可视化
    • 方法
    • Pipeline
  • 2. 【2023/08/31】PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction
    • 动机(针对雷达点云、与TPV相比)
    • 可视化
  • 3. 【2024/04/时空】Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction
  • 4. 【CVPR2024】SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction
    • 针对痛点和贡献
    • 模型框架
  • 5. Tri-Perspective View Decomposition for Geometry-Aware Depth Completion
    • 贡献
    • 框架及即插即用模块

社区开放麦#42 | 面向自动驾驶场景的纯视觉三维语义占有预测

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1. 【CVPR2023】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

动机

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

可视化

在这里插入图片描述

在这里插入图片描述

方法

具体而言,为了获得 3D 空间中点的特征,我们首先将其投影到三个平面中的每一个平面中,并使用双线性插值来获得每个投影点的特征。然后,我们将三个投影特征相加作为 3D 点的综合特征。因此,TPV 表示能够以任意分辨率描述 3D 场景,并为 3D 空间中的不同点生成不同的特征。我们进一步提出了一种基于变换器的编码器 (TPVFormer),以便有效地从 2D 图像中获取 TPV 特征。我们首先在 TPV 网格查询和相应的 2D 图像特征之间执行图像交叉注意,以将 2D 信息提升到 3D 空间。然后,我们在 TPV 特征之间执行跨视图混合注意,以实现三个平面之间的交互。

在这里插入图片描述

我们提出了一种三视角视图 (TPV) 表示,它能够在不抑制任何轴的情况下对全尺寸的 3D 空间进行建模,并避免立方复杂性,如图 3 所示。正式地,我们学习三个轴对齐的正交 TPV 平面:
在这里插入图片描述
直观地讲,从不同角度检查复杂场景可以更好地理解,因为这些角度可能提供有关场景的互补线索。

给定现实世界中 (x, y, z) 处的查询点,TPV 表示会尝试聚合其在顶视图、侧视图和前视图上的投影,以获得该点的全面描述。具体来说,我们首先将该点投影到 TPV 平面上以获得坐标 [(h, w),(d, h),(w, d)],在这些位置对 TPV 平面进行采样以检索相应的特征 [th,w, td,h, tw,d],并聚合这三个特征以生成最终的 fx,y,z:

在这里插入图片描述

其中采样函数 S 和聚合函数 A 分别采用双线性插值和求和实现,并且每个投影函数 P 对两个相关坐标执行 简单的缩放,因为TPV 平面与真实世界轴对齐。【O(HW + DH + W D)<<O(HWD)】

相当于点查询公式,TPV 平面沿各自正交方向扩展并相加时,构造出类似于体素特征空间的全尺寸 3D 特征空间,但存储和计算复杂度仅为 O(HW + DH + W D),比体素对应项低一个数量级。与 BEV 相比,由于 TPV 中的三个平面彼此垂直,因此沿一个平面正交方向的点特征会被从其他两个平面采样的特征所多样化,而 BEV 表示会忽略这一点。此外,每个 TPV 平面中的网格特征仅负责相应柱区域的视图特定信息,而不是像 BEV 中那样编码完整信息。总而言之,TPV 表示将 BEV 从单一顶视图推广到互补且正交的顶视图、侧视图和前视图,并且能够在保持高效的同时提供对 3D 周围环境的更全面、更细粒度的理解。

Pipeline

在这里插入图片描述

2. 【2023/08/31】PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction

在这里插入图片描述

动机(针对雷达点云、与TPV相比)

  • 考虑到 LiDAR 点云的距离分布,我们在圆柱坐标系中构建了三透视视图,以便对较近区域进行更细粒度的建模。
  • 虽然 TPVFormer 在笛卡尔坐标系中使用三个垂直平面,但我们通过经验发现,由于点云分布不均匀(即点的稀疏性取决于它们与自车的距离),它们不能很好地描述 LiDAR 点云。
  • 最近,TPVFormer [16] 提出了一种基于视觉的 3D 感知的三视角 (TPV) 表示,它使用三个正交互补的 2D 平面来建模 3D 场景。由于这三个平面的互补特性,TPV 表示可以在保持效率的同时有效地恢复 3D 结构。尽管如此,TPVFormer 仅使用 TPV 来建模已经提取的图像特征。如何将 LiDAR 点云转换为 TPV 以及如何使用 2D 图像主干处理它们仍然未知。据我们所知,我们是第一个将 TPV 有效地应用于基于 LiDAR 的 3D 感知的人。我们进一步提出了一种圆柱形 TPV 表示来适应 LiDAR 点云,并采用空间组池化方法将 LiDAR 有效地转换为 TPV,同时将信息损失降至最低

可视化

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3. 【2024/04/时空】Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction

在这里插入图片描述

4. 【CVPR2024】SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction

针对痛点和贡献

痛点:

  • 现有方法使用鸟瞰图 (BEV) 或三视角视图 (TPV) 等投影来压缩密集表示。虽然有效,但这些投影会导致信息丢失,尤其是对于语义占用预测等任务。

贡献:

  • 首先,3D sparse diffuser 使用空间分解的 3D 稀疏卷积核执行潜在完成。

  • 构建了一个特征金字塔,其中包含稀疏插值操作,以使用来自其他尺度的信息来增强尺度。

  • 3D 稀疏变换器头,负责生成语义占用预测。通过仅分割占用的体素而不是整个 3D 体积,我们实现了计算成本的显着降低。

  • 有趣的是,它还提高了准确率,这在一定程度上可以归因于稀疏表示能够避免在空体素上产生幻觉

模型框架

在这里插入图片描述

在这里插入图片描述

5. Tri-Perspective View Decomposition for Geometry-Aware Depth Completion

贡献

  • (1) TPVD巧妙地将原始点云分解为三个二维视图,其中一个对应于稀疏深度输入。
  • (2) 我们设计了TPV融合来通过递归的二维-三维-二维聚合更新二维TPV特征,其中应用了距离感知球面卷积(DASC)【编码在紧凑球面空间中变化分布的点,有助于提炼出精细的几何结构】。
  • (3) 通过自适应选择TPV亲和邻居,新提出的几何空间传播网络(Geometric Spatial Propagation Network,GSPN)【即插即用】进一步提高了几何一致性。

框架及即插即用模块

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

GSPN通过在三个分解的2D TPV空间及其联合的3D投影空间中构建亲和性,同时保留了邻域信息和3D几何结构。这种设计使得GSPN能够逐步细化深度图,生成具有一致几何结构的精细深度结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/925162.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

修改bag的frame_id的工具srv_tools

在使用数据集导航或者建图时&#xff0c;bag中的点云或者其他话题的frame_id没有和需要的对应 1.创建工作空间 2.cd xxxx/src 3.git clone https://github.com/srv/srv_tools.git cd .. catkin_make source ./devel/setup.bash rosrun bag_tools change_frame_id.py -t /要改…

hue 4.11容器化部署,已结合Hive与Hadoop

配合《Hue 部署过程中的报错处理》食用更佳 官方配置说明页面&#xff1a; https://docs.gethue.com/administrator/configuration/connectors/ 官方配置hue.ini页面 https://github.com/cloudera/hue/blob/master/desktop/conf.dist/hue.ini docker部署 注意&#xff1a; …

如何用Excel做数据可视化自动化报表?

作为一个经常需要做数据报表的人&#xff0c;我最常用的工具是Excel&#xff0c;对于我来说用Excel处理繁琐冗杂的数据并不难&#xff0c;但是我发现身边很多人用Excel做的数据报表非常的耗时&#xff0c;而且最后的成品也是难以直视&#xff0c;逻辑和配色等都非常的“灾难”。…

layui table 纵向滚动条导致单元格表头表体错位问题

我用的时layui2.6.8版本 历史项目维护&#xff0c;bug给我让我做了&#xff0c;本来利用前端手段强解决&#xff0c;后来发现很多table 找了解决办法 打开layui-v2.6.8/lay/modules/table.js 如果打开后时压缩的代码 直接搜索 e.find(".layui-table-patch") …

C语言学习笔记:流程控制和数据输入输出

流程控制和数据的输入输出 算法 著名计算机科学家沃思提出了一个公式&#xff1a; 数据结构 算法 程序 数据结构&#xff1a;对数据的描述 算法&#xff1a;对操作步骤的描述 算法定义 广义的说&#xff0c;为解决一个问题而采取的方法和有限的步骤&#xff0c;就称为“…

旋转图像(java)

题目描述&#xff1a; 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在 原地 旋转图像&#xff0c;这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 代码思路&#xff1a; class Solution {public void ro…

windows 应用 UI 自动化实战

UI 自动化技术架构选型 UI 自动化是软件测试过程中的重要一环&#xff0c;网络上也有很多 UI 自动化相关的知识或资料&#xff0c;具体到 windows 端的 UI 自动化&#xff0c;我们需要从以下几个方面考虑&#xff1a; 开发语言 毋庸置疑&#xff0c;在 UI 自动化测试领域&am…

【R语言管理】Pycharm配置R语言及使用Anaconda管理R语言虚拟环境

目录 使用Anaconda创建R语言虚拟环境1. 安装Anaconda2. 创建R语言虚拟环境 Pycharm配置R语言1. 安装Pycharm2. R Language for IntelliJ插件 参考 使用Anaconda创建R语言虚拟环境 1. 安装Anaconda Anaconda的安装可参见另一博客-【Python环境管理工具】Anaconda安装及使用教程…

C语言进程编程

getpid函数&#xff1a; 原型&#xff1a;pid_t getpid(void) 特性&#xff1a;返回值是PID值 用途&#xff1a;获取当前进程PID 用法例 #include<stdio.h> #include <sys/types.h> #include<unistd.h> int main() {pid_t pid;pid getpid();printf(&qu…

SpringMVC |(一)SpringMVC概述

文章目录 &#x1f4da;SpringMVC概述&#x1f407;三层架构&#x1f407;异步调用 &#x1f4da;SpringMVC入门案例&#x1f407;入门案例&#x1f407;注意事项 &#x1f4da;小结 学习来源&#xff1a;黑马程序员SSM框架教程_SpringSpringMVCMaven高级SpringBootMyBatisPlus…

Android 桌面窗口新功能推进,聊一聊 Android 桌面化的未来

Android 桌面化支持可以说是 Android 15 里被多次提及的 new features&#xff0c;例如在 Android 15 QPR1 Beta 2 里就提到为 Pixel 平板引入了桌面窗口支持&#xff0c;桌面窗口允许用户在自由窗口同时运行多个应用&#xff0c;同时可以像在传统 PC 平台上一样调整这些窗口的…

Vue+Vite 组件开发的环境准备(零基础搭建)

一、什么是Vite Vue3作为一款现代化的JavaScript框架&#xff0c;配合Vite这样的构建工具&#xff0c;极大地简化了流程&#xff0c;提升了效率。Vite 是一个基于现代浏览器原生的 ES 模块系统&#xff0c;能够以原生模块导入的方式运行源代码的开发服务器。它被设计用来替代传…

linux高级系统编程之进程

进程 一个正在进行的程序 并行与并发 并行:执行的程序在不同CPU上同时执行 并发:一个CPU,多个进程交替执行,因为交替速度很快,所以从宏观上来看是同时执行的,但是从围观的角度是交替执行的 单道与多道 单道程序设计:所有进程一个一个排队执行,若A阻塞,B只能等待,,即使CPU处于空…

git 命令之只提交文件的部分更改

git 命令之只提交文件的部分更改 有时&#xff0c;我们在一个文件中进行了多个更改&#xff0c;但只想提交其中的一部分更改。这时可以使用 使用 git add -p 命令 Git add -p命令允许我们选择并添加文件中的特定更改。它将会显示一个交互式界面&#xff0c;显示出文件中的每个更…

Excel中根据某列内容拆分为工作簿

简介&#xff1a;根据A列的内容进行筛选&#xff0c;将筛选出来的数据生成一个新的工作簿(可以放到指定文件夹下)&#xff0c;且工作簿名为筛选内容。 举例&#xff1a; 将上面的内容使用VBA会在当前test1下生成5个工作簿&#xff0c;工作簿名分别为TEST1.xls TEST2.xls TEST3…

数据结构 (10)队列

前言 队列是一种特殊的数据结构&#xff0c;它遵循先进先出&#xff08;FIFO&#xff0c;First In First Out&#xff09;的原则。 一、定义与基本概念 定义&#xff1a;队列是一种只允许在一端&#xff08;队尾&#xff09;进行插入操作&#xff0c;而在另一端&#xff08;队头…

Tomcat10部署Servlet加载错误问题解决

Servlet加载错误&#xff1a;HelloServlet不是Servlet 环境信息&#xff1a;IDEA中的maven项目&#xff0c;tomcat10.1.33 问题信息&#xff1a;XXX.Servlet不是Servlet 问题原因&#xff1a;tomcat10将JavaEE也换成了Jakarta EE&#xff1b; Jakarta EE较以前的JavaEE有一个重…

2024年第十三届”认证杯“数学中国数学建模国际赛(小美赛)

↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓

百度智能云发布首个空间智能解决方案,百度AI优势如何分析?

首先&#xff0c;百度智能云此次推出的空间智能解决方案&#xff0c;在技术底座上展现了其强大的AI异构计算能力。百度百舸AI异构计算平台作为该方案的底层支撑&#xff0c;为2D和3D应用中的人物、物件及场景生成提供了强大的算力支持。这一平台的推出&#xff0c;不仅提升了空…

RTSP摄像头、播放器为什么需要支持H.265?

H.264还是H.265&#xff1f; 好多开发者在做选RTSP播放器的时候&#xff0c;经常问我们的问题是&#xff0c;用H.264好还是H.265好&#xff1f;本文我们就H.264 和 H.265的主要区别和适用场景&#xff0c;做个大概的交流。 一、压缩效率 H.265 更高的压缩比 H.265 在相同视频…