VALSE 2024 Workshop报告分享┆ 大规模自动驾驶仿真系统研究

视觉与学习青年学者研讨会(VALSE)旨在为从事计算机视觉、图像处理、模式识别与机器学习研究的中国青年学者提供一个广泛而深入的学术交流平台。该平台旨在促进国内青年学者的思想交流和学术合作,以期在相关领域做出显著的学术贡献,并提升中国学者在国际学术舞台上的影响力。

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

VALSE 2024在5月7日的会议主要包括3个Tutorial和9个Workshop。

3个Tutorial:在这三个Tutorial中,来自复旦大学的邱锡鹏教授、北京大学的王鹤教授和快手的王鑫涛呈现了3个报告,分别为《基于大模型的自主智能体》、《具身智能的Sim2Real泛化途径》和《视频生成的初探及其可控性研究》。

9个Workshop: 这些Workshop围绕多模态大模型、脑启发的视觉与学习、优秀学生论坛、女科学家成长论坛、异构联邦学习、多模态感知与对话、大模型与因果推理、遥感图像智能解译以及端到端自动驾驶等主题进行了广泛的探讨。从多模态大模型在复杂数据处理中的应用、到脑启发系统如何影响机器学习的未来发展;从优秀学生展示其创新研究成果的论坛,到支持和鼓励女科学家发展的专场讨论;再到异构联邦学习在保护隐私中的关键角色,以及多模态感知与对话技术在人机交互中的应用。此外,会议还深入探讨了大模型与因果推理在预测和决策中的重要性,遥感图像智能解译技术在环境监测和灾害响应中的应用,以及端到端自动驾驶技术的最新进展。这些讨论不仅突出了技术的创新应用,还强调了科研在推动行业发展和解决现实问题中的关键作用。

本文主要对复旦大学张力研究员的Workshop报告《大规模自动驾驶仿真系统研究》进行总结和分享。

1.报告人简介

张力,复旦大学大数据学院研究员,主要研究领域包括三维重建和自动驾驶等。

2.报告概述

近年来,随着自动驾驶技术及仿真系统的迅速发展,越来越多的研究旨在开发能够模拟极其逼真的驾驶环境的系统。这些研究试图在复杂的交通情景与动态参与者行为的基础上,为自动驾驶算法提供丰富的训练及测试环境。尽管如此,现有的仿真系统在遇到新的驾驶条件或交通场景时,由于依赖现有的数据采集,泛化能力受限。通过利用神经辐射场(NeRF)的三维重建技术以及雷达点云数据作为重建的先验信息,一些研究在提升街景重建的三维一致性上取得了成果,但在应对更广泛且复杂的动态场景时,仍然面临成本和重建质量的挑战。此外,自动驾驶系统迫切需要解决数据多样性不足及复杂光照条件的处理问题,以适应广泛而多样化的数据需求。本报告提出了一种从稀疏视角生成连续时空场景的高精度仿真数据方法,该方法能够准确地捕捉和模拟对象的运动与环境变化,涵盖各种环境条件、光照变化及动态场景,并在时间和空间上保持连续性与一致性,极大地提高了模型训练效率和预测的准确性。

3.最近的相关工作

根据张力研究员在现场的报告内容,选自其中的三篇最近的相关工作如下所示。如需了解张力研究员的更多工作和贡献,可以访问他的谷歌学术主页(张力研究员的谷歌学术主页链接:https://scholar.google.com.hk/citations?user=-wOTCE8AAAAJ&hl=zh-CN&oi=sra)。本推文以2024年的论文“S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation”为例,结合个人理解进行了总结分享,具体见第4节。

(1)论文题目S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation

论文下载链接:https://arxiv.org/pdf/2402.02112。

(2)论文题目:S-Agents: Self-organizing Agents in Open-ended Environments

论文下载链接:https://arxiv.org/pdf/2402.04578。

(3)论文题目Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering

论文下载链接:https://arxiv.org/pdf/2311.18561。

4.内容总结

报告介绍了一种名为S-NeRF++的新型自动驾驶仿真系统,该系统基于神经重建技术。这种方法主要解决了传统仿真系统依赖手动建模和2D图像编辑,难以扩展到大规模场景且生成的仿真数据不够真实的问题。S-NeRF++通过改进的神经辐射场(Neural Radiance Fields, NeRF)技术,利用自动驾驶数据集如nuScenes和Waymo进行训练,能够生成大量高质量的街景和前景对象,提供了更高的渲染质量和操作灵活性。

图1 摄像头设置对比

图1(a) 展示了传统NeRF所需的摄像头设置,这些摄像头设置需要大量的重叠视场来有效训练NeRF模型,以实现高质量的3D重建和视图合成。这种设置通常适用于物体中心的场景,如室内环境或较小的室外区域。图1(b) 展示了自主车辆的摄像头设置,这是针对广阔的室外城市驾驶环境设计的。这种设置涵盖了360度的全景视角,摄像头之间的重叠区域相对较少,这对传统NeRF模型来说是一个挑战,因为这种模型依赖于高度重叠的视图来精确重建场景。

图2 新视角渲染性能示例

图2(a) 描述了一种当前最先进的方法(Mip-NeRF 360)在nuScenes场景中的渲染结果,展示了在复杂的城市场景中该方法遇到的问题,如模糊的纹理细节和大量的深度误差。图2(b) 展示了S-NeRF++在相同场景中的渲染结果,显示出明显改进的深度准确性和纹理细节,减少了渲染错误,提供了更为精确和真实的视觉效果。此外,图2(c) 和 图2(d)的对比进一步展示了S-NeRF++在处理动态对象(如移动车辆)时的能力,展示了其在复杂场景中合成新视图的能力,与GeoSim相比具有更高的质量和准确性。

图3 深度监督和渲染管道

图3详细说明了S-NeRF++如何利用来自LiDAR的稀疏点云数据进行深度监督,包括:图3(a) 展示了原始的噪声稀疏点云。图3(b) 展示了从这些点云数据中派生出的深度监督信息。图3(c) 展示了学习到的置信度图,帮助模型评估深度数据的可靠性。图3(d) 展示了最终的深度渲染结果,说明了通过优化深度数据的处理,模型能够生成更准确的深度图,从而改善整体的渲染质量。

图4 移动车辆的相机变换过程

图4展示了自主车辆(ego vehicle)与目标车辆(target vehicle)在数据收集期间动态变化的相对位置处理方法。图中说明了将相机坐标系统转换为以目标车辆为中心的坐标系统,以便更有效地模拟和渲染动态对象。这种处理方式简化了在自动驾驶数据收集中考虑动态目标的复杂性,使得S-NeRF++能够更准确地重建和渲染包含动态前景的场景。

图5 置信度组件的可视化

图5具体展示了深度监督过程中所使用的各种置信度组件的可视化,包括几何置信度和感知置信度等,图中显示了这些置信度如何分别针对不同的数据不一致性进行评估。几何置信度主要处理物理和几何的一致性问题,而感知置信度则关注于图像的视觉和纹理信息的一致性。此外,还展示了如何将这些不同的置信度度量整合到一个综合的置信度图中,这个综合置信度图在模型训练中被用来权衡来自不同数据源的信息,优化最终的学习和渲染过程。

图6 S-NeRF++系统中重建框架的整体概览

图6详细展示了S-NeRF++系统中重建框架的整体概览,特别强调了通过生成密集深度图和可学习的置信度图来监督训练过程。具体而言,首先使用稀疏的LiDAR数据创建初始的深度图,接着这些初始深度图通过深度补全技术被转化为更加密集的深度图。随后,系统生成了基于RGB图像、光流和SSIM/VGG的置信度图,这些置信度图帮助模型区分可靠和不可靠的深度信息。最终,这些数据被用于训练一个基于NeRF的网络,网络输出渲染的RGB图像和对应的深度图。此外,还展示了如何通过学习聚合不同的置信度指标,优化模型的深度估计,从而提高重建和渲染的质量和精度。整个流程说明了S-NeRF++如何结合先进的深度处理技术和神经渲染,以生成高质量的自动驾驶仿真数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/604682.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

五月加仓比特币

作者:Arthur Hayes Co-Founder of 100x. 编译:Liam 编者注:本文略有删减 (以下内容仅代表作者个人观点,不应作为投资决策的依据,也不应被视为参与投资交易的建议或意见)。 从四月中旬到现在,当你…

动态规划——路径问题:931.下降路径最小和

文章目录 题目描述算法原理1.状态表示(经验题目)2.状态转移方程3.初始化4.填表顺序5.返回值 代码实现CJava 题目描述 题目链接:931.下降路径最小和 关于这⼀类题,看过我之前的博客的朋友对于状态表示以及状态转移是⽐较容易分析…

Java 中的 HTTP 客户端库OkHttp、Apache HttpClient和HttpUrlConnection

大家好,我是G探险者。 项目开发里面经常会有这么一种场景:与服务器进行 HTTP 通信。一般存在于服务间远程调用的场景 Java 生态系统提供了多种 HTTP 客户端库,每种都有其自己的特点、优势和适用场景。 本文将介绍几种主要的 Java HTTP 客户…

【练习3】

1.将二叉搜索树转为排序的双向链表 (好久没看数据结构,忘完了,学习大佬的代码) class Solution { public:Node* prenullptr,*headnullptr; //pre为每次遍历时的前一个节点,head记录头节点Node* treeToDoublyList(Node* root) {if…

Qt应用开发(拓展篇)——图表 QChart

一、前言 QChart是一个图形库模块,它可以实现不同类型的序列和其他图表相关对象(如图例和轴)的图形表示。要在布局中简单地显示图表,可以使用QChartView来代替QChart。此外,线条、样条、面积和散点序列可以通过使用QPolarChart类表示为极坐标…

Vue3 查看真实请求地址

上回说到Vue2查看真实请求地址,那么Vue3该如何查看呢? 传送门: Vue2 查看真实请求地址 1. bypass函数 使用bypass函数获取代理结果,设置响应头(请求头设置未生效,也可以在响应头上看)。 2. …

PRL:新型量子传感方案突破纳米测量极限

朴茨茅斯大学的研究人员近期宣布了一项令人振奋的量子传感方案,该方案在测量两个干涉光子之间的横向位移方面达到了前所未有的量子灵敏度。 这一技术的突破为超分辨率成像技术带来了新的可能性。目前,这些技术通常采用单光子源作为探针,用于在…

LCD驱动IC-抗干扰液晶段码显示屏驱动芯片,液晶显示驱动原厂-VK2C23A/B LQFP64/48

产品品牌:永嘉微电/VINKA 产品型号:VK2C23A/B 封装形式:LQFP64/48 概述 VK2C23是一个点阵式存储映射的LCD驱动器,可支持最大224点(56SEGx4COM) 或者最大416点(52SEGx8COM)的LCD屏。…

电-热耦合市场联合出清!考虑均衡约束的综合能源系统电-热分配方法程序代码!

前言 随着现代城市面临环境问题,原来燃煤的水和空间供暖设备已逐渐被电锅炉和热泵等电气设备所取代。此外,集中生产热能并通过管网分配热能的区域供暖系统,由于其更高的效率,在冬季漫长寒冷的国家和地区越来越受欢迎。供暖设备的…

Windows电脑搭建HarmonyOS NEXTDeveloper Preview2环境详解

Windows电脑搭建HarmonyOS NEXTDeveloper Preview2环境详解: HarmonyOS NEXT Preview系列教程基于Api11讲解-IT营大地老师 1 、电脑要求以及注意事项 操作系统 : Windows10 64 位、 Windows11 64 位 内存 : 8GB 及以上,推荐 16G…

传闻不断!TCL紧急澄清 | 百能云芯

TCL科技5月7日晚间发布澄清公告称,近日关注到有媒体发布《TCL华星年内投630亿元加入8代oled线竞逐!》《TCL华星计划年内投资第八代OLED》等相关报道。公司目前无新建8代或8.6代OLED产线的投资计划,公司不存在通过定增募集资金新建显示产线的计…

启英泰伦“离线自然说”技术,让智能语音芯片更善解人意

“以科技创新推动产业创新,特别是以颠覆性技术和前沿技术催生新产业、新模式、新动能,发展新质生产力”。2023年12月,中央经济工作会议强调了发展新质生产力的路径。“科技创新是发展新质生产力的核心要素,这也是我们一直潜心在做…

spring模块(六)spring监听器(2)@EventListener

一、介绍 监听器的简化写法 二、原理 三、使用 Slf4j Component public class MyTask {EventListenerpublic void onApplicationEvent(ApplicationEvent event) {if (event instanceof ContextRefreshedEvent) {log.info("监听到 ContextRefreshedEvent...");}if…

牛客题-链表内区间反转

链表内区间反转 这是代码 typedef struct ListNode listnode; struct ListNode* reverseBetween(struct ListNode* head, int m, int n ) {if (head NULL) {return NULL;}listnode* findhead head;listnode* findtail head;listnode* prev NULL;int count1 m;int count2…

基于Springboot的校园招聘系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的校园招聘系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构&…

Unity数据持久化之Json

Json概述 Json是什么? 全称:JavaScript对象简谱(JavaScript Object Notation) Json是国际通用的一种轻量级的数据交换格式 主要在网络通讯中用于传输数据,或本地数据存储和读取 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率 我们一般使用Json文件来…

SF 不消费buffer

1、请求合成请求vsync MessageQueue.cpp 返回nextWakeupTime struct ArmingInfo { nsecs_t mActualWakeupTime; nsecs_t mActualVsyncTime; nsecs_t mActualReadyTime; }; 在schedule 请求vsync 时会根据算法计算出nextVsyncTime时间&#…

企业怎样进行IT外包以及IT外包服务内容

在数字化时代的浪潮中,企业逐渐认识到信息技术的关键作用,特别是制造业基地对于IT外包和运维服务的需求持续增长。然而,在诸多可供选择的IT外包和运维方案中,企业如何推动与IT外包公司的合作?本文将深入介绍IT外包方案…

Python解释器3.8.2版本安装详细教程

Python解释器提取链接链接: https://pan.baidu.com/s/1eDvwYmUJ4l7kIBXewtN4EA?pwd1111 提取码:1111 演示版本为3.6.8,链接安装包为3.8.2版,包中附加pytharm安装包。 1.双击提取好的python-exe安装文件,会…

泛型编程四:容器

文章目录 前言一、序列容器verctor 总结 前言 STL有六大部件,容器、算法、仿函数、迭代器、适配器和分配器。除了算法是函数模板,其他都是类模板。容器可以分为序列容器和关联容器。常见的序列容器有vector、array、deque、list、forward-list&#xff…