Visual Point Cloud Forecasting enables Scalable Autonomous Driving——点云论文阅读(12)

此内容是论文总结,重点看思路!!

文章概述

这篇文章介绍了一个名为 ViDAR 的视觉点云预测框架,它通过预测历史视觉输入生成未来点云,作为自动驾驶的预训练任务。ViDAR 集成了语义、三维几何和时间动态信息,有效提升了感知、预测和规划等自动驾驶核心任务的性能。实验表明,该框架显著减少了对高成本标注数据的依赖,并在多个下游任务中优于现有最佳方法,为实现可扩展的视觉自动驾驶提供了新的解决方案。

主要贡献

1.提出“视觉点云预测”作为新的预训练任务

  • 通过从历史视觉输入预测未来点云,这一任务结合了语义、三维几何和时间动态建模,适用于感知、预测和规划等自动驾驶核心任务。

2.设计了通用的预训练框架ViDAR

  • 包括历史编码器(提取视觉序列特征)、潜在渲染操作(解决几何特征建模问题)、未来解码器(生成未来时间的点云预测),为自动驾驶提供了系统性的解决方案。

3.引入潜在渲染操作(Latent Rendering)

  • 克服了传统方法中“射线特征”不够区分的缺陷,显著提升了三维几何信息的建模能力,从而增强了下游任务的性能。

4.显著提升了自动驾驶系统的性能

  • 在多个下游任务(如3D检测、语义占用预测、轨迹预测和规划)中,ViDAR 均超越了现有最佳方法。例如,短时预测误差减少了33%,碰撞率降低了15%。

5.减少对高成本标注数据的依赖

  • ViDAR 通过无监督预训练显著降低了对大规模3D标注数据的需求,在数据有限的情况下依然表现出色,从而推动了可扩展的自动驾驶技术。

6.首次验证了视觉点云预测在自动驾驶中的可扩展性

  • 通过实验表明,视觉点云预测能在感知、预测和规划三个任务中同时取得显著进步,为端到端自动驾驶提供了全面的性能提升。

主要方法

1. 视觉点云预测(Visual Point Cloud Forecasting)

视觉点云预测的任务是从历史视觉输入中预测未来的点云。这种任务的设计目标是同时捕获以下三个方面的信息:

  • 语义信息:场景中的语义特征,例如道路、车辆和行人等。
  • 三维几何信息:物体的形状、位置和空间布局。
  • 时间动态信息:场景中的运动模式和变化趋势。

通过将这些信息结合,视觉点云预测既可以作为一个独立的任务,又可以为感知、预测和规划任务提供有效的预训练支持。

2. ViDAR框架

ViDAR是一个通用的视觉点云预测框架,包含三个主要模块:

(1) 历史编码器(History Encoder)
  • 作用:从多视图历史图像中提取鸟瞰视角 (Bird’s Eye View, BEV) 特征。
  • 架构
    • 历史编码器可以是任何 BEV 编码器,例如 BEVFormer。
    • 使用深度神经网络(如 ResNet101)提取视觉特征,并结合 FPN(特征金字塔网络)对特征进行多尺度融合。
    • 通过空间-时间变换器将图像特征转换为 BEV 表征。
(2) 潜在渲染操作(Latent Rendering Operator)
  • 创新点

    • 模拟潜在空间中的体渲染操作,将 BEV 特征转化为几何嵌入。
    • 提出了一种改进的“条件概率函数”和“特征期望函数”,解决传统方法中“射线特征”(ray-shaped features)的问题。
  • 操作细节

    1. 条件概率函数
      • 计算光线上的各个点是否被占用的概率,通过抑制相邻点的高响应来区分几何特征。
    2. 特征期望函数
      • 结合光线上的几何特征计算出每个网格的最终特征。
    3. 多组潜在渲染(Multi-group Latent Rendering)
      • 将特征通道分为多组并并行渲染,以捕捉更多几何信息。
    4. 结果
      • 渲染后的特征能够有效地表示场景中的几何细节(如物体和障碍物)。
(3) 未来解码器(Future Decoder)
  • 作用:预测未来时间步的 BEV 特征。

  • 架构

    • 基于自回归的变换器(Transformer),逐步预测未来特征。
    • 包括以下关键模块:

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/947197.html

    如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

    相关文章

    AI 将在今年获得“永久记忆”,2028美国会耗尽能源储备

    AI的“永久记忆”时代即将来临 谷歌前CEO施密特揭示了AI技术的前景,他相信即将在2025年迎来一场伟大的变化。AI将实现“永久记忆”,改变我们与科技的互动过程。施密特将现有的AI上下文窗口比作人类的短期记忆,难以持久保存信息。他的设想是…

    工控主板ESM7000/6800E支持远程桌面控制

    英创公司ESM7000 是面向工业领域的双核 Cortex-A7 高性能嵌入式主板,ESM6800E则为单核Cortex-A7 高性价比嵌入式主板,ESM7000、ESM6800E都是公司的成熟产品,已广泛应用于工业很多领域。ESM7000/6800E板卡中Linux系统配置为linux-4.9.11内核、…

    越权漏洞简介及靶场演示

    越权漏洞简介及靶场演示 文章目录 一、什么是越权? (一)越权漏洞的概念(二)越权漏洞的分类(三)常见越权方法(四)未授权访问 二、越权漏洞测试过程 (一&…

    VIT:视觉transformer|学习微调记录

    一、了解VIT结构 vit提出了对于图片完全采用transformer结构而不是CNN的方法,通过将图片分为patch,再将patch展开输入编码器(grid_size网格大小),最后用MLP将输出转化为对应类预测。 详细信息可以看下面这个分享&…

    coredns报错plugin/forward: no nameservers found

    coredns报错plugin/forward: no nameservers found并且pod无法启动 出现该报错原因 是coredns获取不到宿主机配置的dns地址 查看宿主机是否有dns地址 resolvectl status 我这里是配置正确后,如果没配置过以下是不会显示出dns地址的 给宿主机增加静态dns地址之后将…

    使用Diffusion Models进行图像超分辩重建

    Diffusion Models专栏文章汇总:入门与实战 前言:图像超分辨率重建是一个经典CV任务,其实LR(低分辨率)和 HR(高分辨率)图像仅在高频细节上存在差异。通过添加适当的噪声,LR 图像将变得与其 HR 对应图像无法区分。这篇博客介绍一种方式巧妙利用这个规律使用Diffusion Mod…

    NineData 荣获年度“创新解决方案奖”

    近日,国内知名 IT 垂直媒体 & 技术社区 IT168 再次启动“技术卓越奖”评选,由行业 CIO/CTO 大咖、技术专家及 IT 媒体多方联合评审,NineData 凭借技术性能和产品创新等方面表现出色,在数据库工具领域荣获“2024 年度创新解决方…

    liunx下载gitlab

    1.地址: https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/ 安装 postfix 并启动 yum install postfix systemctl start postfix systemctl enable postfix ssh服务启动 systemctl enable sshd systemctl start sshd开放 ssh 以及 http 服务&#xff0c…

    SQL—替换字符串—replace函数用法详解

    SQL—替换字符串—replace函数用法详解 REPLACE() 函数——查找一个字符串中的指定子串,并将其替换为另一个子串。 REPLACE(str, old_substring, new_substring)str:要进行替换操作的原始字符串。old_substring:要被替换的子串。new_substri…

    Android笔试面试题AI答之Android基础(11)

    Android入门请看《Android应用开发项目式教程》,视频、源码、答疑,手把手教 文章目录 1.Android的权限有哪些?**1. 普通权限****常见普通权限** **2. 危险权限****权限分组****常见危险权限组及权限** **3. 特殊权限****常见特殊权限** **4. …

    机器学习之正则化惩罚和K折交叉验证调整逻辑回归模型

    机器学习之正则化惩罚和K折交叉验证调整逻辑回归模型 目录 机器学习之正则化惩罚和K折交叉验证调整逻辑回归模型1 过拟合和欠拟合1.1 过拟合1.2 欠拟合 2 正则化惩罚2.1 概念2.2 函数2.3 正则化种类 3 K折交叉验证3.1 概念3.2 图片理解3.3 函数导入3.4 参数理解 4 训练模型K折交…

    [AHK]用大模型写ahk脚本

    问题背景 遇到程序在运行,但是在屏幕上看不到的窘境,于是想用AHK来实现一键在主屏幕上居中显示。 解决思路 手撸是不可能手撸的,我有豆包我有cursor,于是想看看她俩到底能力咋样。 提示词 用AHK v2实现:热键WinC …

    Word如何插入图片并移动到某个位置

    Word如何插入图片并移动到某一个位置 新建word→插入→图片 选择合适的位置→选择图片→打开 点击图片→布局选项→选择文字环绕下的任意一个→固定在页面上 点击图片就可以将图片移动到任意位置

    ElasticSearch7.10-分词器

    文章目录 分词器1.字符过滤器1.介绍2.过滤html标签3.mappings过滤规则(屏蔽非文明用语)4.正则替换 2.自定义分词器1.代码2.查询 3.中文分词器1.下载ik分词器7.10.0版本(跟es对应)2.应用ik分词器1.进入插件目录下创建一个ik目录2.将…

    python利用selenium实现大麦网抢票

    大麦网(damai.cn)是中国领先的现场娱乐票务平台,涵盖演唱会、音乐会、话剧、歌剧、体育赛事等多种门票销售。由于其平台上经常会有热门演出,抢票成为许多用户关注的焦点。然而,由于票务资源的有限性,以及大…

    Linux 笔记 SELinux 常见操作与介绍

    SELinux(Security-Enhanced Linux)是 Linux 操作系统中的一种安全模块,旨在提供更细粒度的访问控制。它最初由美国国家安全局(NSA)开发,目的是增强 Linux 系统的安全性。SELinux 通过强制访问控制&#xff…

    Elasticsearch VS Easysearch 性能测试

    压测环境 虚拟机配置 使用阿里云上规格:ecs.u1-c1m4.4xlarge,PL2: 单盘 IOPS 性能上限 10 万 (适用的云盘容量范围:461GiB - 64TiB) vCPU内存 (GiB)磁盘(GB)带宽(Gbit/s)数量1664500500024 Easysearch 配置 7 节点…

    javacript中function (res) {}与箭头函数表达式(res) =>{}的区别

    javacript中function (res) {}与(res) >{}的区别 function (res) {} 代码演示 let shape {name:长方形,say:function(){console.log(我是this.name)setTimeout(function(){console.log(3秒后输出我是: this.name); //this.name为undefined}, 3000)} }shape.sa…

    [IT项目管理]十.项目人力资源管理

    十.项目人力资源管理 *10.0基础知识 1)动力与激励 10.1人力资源管理的重要性 很多项目经理都说过,“人是我们最重要的资产。”,人的因素决定着一个 组织或者项目的成败。 10.2人力资源管理对未来的其启示 对于组织来说&#…

    数据结构理论篇(期末突击)

    找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏: 学校课程突击 下面均是为了应付学校考试所用,如果有涉及部分知识点下面未说明,可以去我的数据结构专栏看看或者自行在…