Cylinder3D论文阅读

Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation(2020年论文)
作者:香港中文大学
论文链接:https://arxiv.org/pdf/2011.10033.pdf
代码链接:https://github.com/xinge008/Cylinder3D

摘要

为什么做这件事(why):
● 目前用于自动驾驶场景的最好的点云分割算法常见的做法是将3D点云投射到2D空间,从而使用2D卷积进行处理,但是这种做法会损失掉一些3D信息。
● 三维体素化和三维卷积网络在室外点云中获得的改进相当有限。
● 究其原因是:sparsity and varying density,即室外开发环境的点云的稀疏性和密度不均匀性
作者做了什么(what):
● 提出了一种新的框架,用于室外激光雷达点云分割
作者怎么做的(how):
● 圆柱形分区(3D cylindrical partition)
● 非对称三维卷积网络(asymmetrical 3D convolution)
● 引入了一个point-wise细化模块:
减轻基于体素的标签编码的损失干扰
作者做的怎么样(result):
● 在SemanticKITTI 1的排行榜上名列第一
● 在nuScenes上比现有方法高出约4%
● 所提出的3D框架也很好地推广到了激光雷达全景分割和激光雷达3D检测中

引言(Introduction)

提出问题:

● 激光雷达在自动驾驶中很重要
● 深度学习在图像分割算法上效果明显
● 目前的一些做法是将点云投射到2D空间(range-image方法、bev方法),但是会损失3D信息
● 三维体素化和三维卷积网络在室外点云中获得的改进相当有限

作者的论文:

提出了一种新的框架,用于室外激光雷达点云分割(3个创新点)
● 3D圆柱分区:这个组件涉及将3D点云数据分成圆柱形区域。它根据点离原点的距离动态进行分割。这种方法的理论依据是离传感器远的点通常具有较稀疏的数据,因此对这些区域使用较大的单元格。这有助于创建更平衡的点分布。
● 非对称3D卷积网络:这个部分指的是专门设计用于处理3D点云数据的卷积神经网络(CNN)。这些网络是“非对称的”,因为它们具有水平和垂直核,这些核被调整以匹配室外环境中的点分布。这种调整有助于使网络对稀疏数据更加稳健。
● point-wise模块:为了解决由于基于体素的编码而导致的信息丢失问题,引入了一个点级模块。这个模块可能对单个点执行操作,以refine从基于体素的网络获得的特征。它有助于保留重要的细节和点之间的区别。
在这里插入图片描述

相关工作

室内场景点云分割

室内场景特点

● uniform density
● small number of points
● small range of the scene

常用的方法

基于原始点进行处理:
● 基于PointNet,并通过改进采样、分组和排序等技术来提高性能
● 利用聚类算法来提取点的分层特征

缺点

这些方法在应对室外点云的问题时存在限制,因为室外点云通常具有不均匀的密度和更大的场景范围,而且点的数量较多,导致从室内到室外的部署时面临计算困难

室外场景点云分割

室外场景特点

● sparsity
● varying density

常用方法

大多数现有的室外场景点云分割方法侧重于将3D点云转换为2D网格,以便使用2D卷积神经网络
● SqueezeSeg、Darknet、SqueezeSegv2和RangeNet++等方法利用球面投影机制,将点云转换为前视图图像或范围图像,并在伪图像上采用2D卷积网络进行点云分割(range image)
● PolarNet则采用鸟瞰图投影,将点云数据投影到极坐标下的鸟瞰图表示

缺点

从3D到2D的投影方法不可避免地会损失和改变3D拓扑结构,并且无法模拟几何信息

3D Voxel Partition

● 将点云转换为3D体素,可以保留3D几何信息,但对于室外LiDAR点云的改进仍然有限。
● OccuSeg、SSCN和SEG-Cloud等方法采用了这种方法。
● 问题是这些方法忽视了室外LiDAR点云的固有特性,即稀疏性和不均匀密度。

Network Architectures for Segmentation

分割使用的一些深度学习网络架构:

  1. Fully Convolutional Network (FCN): FCN是深度学习时代的基础工作之一。许多工作都建立在FCN的基础上,旨在通过探索扩张卷积、多尺度上下文建模和注意力建模等方法来改进性能。这些工作包括DeepLab和PSP等。
  2. U-Net: U-Net是一个对称的神经网络架构,用于图像分割任务。它特别适用于保留低级特征,并在2D基准上取得了巨大的成功。最近,许多研究也将U-Net的思想应用到了3D点云分割领域。

方法论

整体框架

在这里插入图片描述
图2上半部分是整体框架。
● LiDAR点云首先被输入到MLP(多层感知器)中,以获得点级特征,
● 然后根据圆柱划分重新分配这些特征。
● 接下来,使用非对称3D卷积网络生成逐体素的输出。
● 最后,引入了一个点级模块,用于改进这些输出。这一过程有助于在室外LiDAR点云中执行语义分割任务,提高了分割的准确性和效果。
图2下半部分详细阐述了四个组件,包括非对称下采样块(AD)、非对称上采样块(AU)、非对称残差块(A)和基于维度分解的上下文建模(DDCM)。这些组件是框架的重要部分,用于处理和改进室外LiDAR点云的语义分割任务。以下是对这些组件的简要解释:

  1. 非对称下采样块 (AD):这是一个用于下采样(减小分辨率)的块,通常在卷积神经网络中用于降低数据维度和提取特征。在这个框架中,非对称下采样块用于降低点云数据的复杂性,以便更有效地进行处理。
  2. 非对称上采样块 (AU):这是一个用于上采样(增大分辨率)的块,通常在卷积神经网络中用于还原分辨率并生成高分辨率特征图。在这个框架中,非对称上采样块用于还原点云数据的分辨率,以便更准确地进行分割。
  3. 非对称残差块 (A):残差块是一种神经网络块,它有助于网络学习残差信息,从而提高网络的性能。在这个框架中,非对称残差块用于改进和优化特征表示,以更好地执行语义分割任务。
  4. 基于维度分解的上下文建模 (DDCM):这是一种上下文建模方法,用于捕获点云数据中的上下文信息。通过维度分解,DDCM可以更好地理解点云数据中的特征和结构,从而提高分割的准确性。
    这些组件共同构成了该框架的底部部分,用于处理和优化LiDAR点云数据,并执行室外语义分割任务。每个组件在提高模型性能和准确性方面都发挥着关键作用。

3D圆柱分区

在这里插入图片描述
上图展示了在不同距离下,圆柱形分区和立方体分区之间的非空单元格比例(结果是在SemanticKITTI的训练集上计算的)。可以看到,圆柱形分区在更大的距离下具有更高的非空比例和更均衡的点分布,特别是对于远处的区域。这表明圆柱形分区在处理不均匀密度的点云时具有明显的优势,特别是在远距离区域。这种优势有助于提高语义分割的准确性和效果。
在这里插入图片描述
图4中详细展示了工作流程。
● 首先,将笛卡尔坐标系中的点转换为圆柱坐标系。这一步将点(x,y,z)转换为点(ρ,θ,z),其中半径ρ(到原点的距离在x-y轴上)和方位角θ(从x轴到y轴的角度)被计算出来。
● 然后,圆柱形分区对这三个维度执行划分,需要注意的是,在圆柱坐标系中,距离较远的区域具有较大的单元格。从MLP获得的点级特征根据此划分的结果重新分配,以获得圆柱形特征。
● 完成这些步骤后,从0度开始展开圆柱体,得到3D圆柱形表示R ∈ C × H × W × L,其中C表示特征维度,H、W、L表示半径、方位角和高度。
● 接下来的非对称3D卷积网络将在这个表示上执行。这个工作流程有助于更好地处理LiDAR点云数据,并为后续的语义分割任务提供更好的数据表示。

非对称3D卷积网络

由于驾驶场景点云具有特定的物体形状分布,包括汽车、卡车、公共汽车、摩托车和其他立方体状物体,因此旨在根据这一观察来增强标准3D卷积的表示能力。此外,最近的文献 [40, 11] 也表明,在方形卷积核中,中央的十字交叉权重更重要。因此,设计了非对称残差块,以增强水平和垂直响应,并匹配对象点的分布。基于提出的非对称残差块,进一步构建了非对称下采样块和非对称上采样块,用于执行下采样和上采样操作。此外,引入了一种基于维度分解的上下文建模方法(称为DDCM),以在分解-聚合策略中探索高阶全局上下文。在图2的底部详细介绍了这些组件。
这些组件的设计和使用旨在提高网络对驾驶场景点云的表示能力,特别是对于包括汽车、卡车、公共汽车、摩托车等立方体状物体在内的对象的分布。非对称残差块、非对称下采样块、非对称上采样块和维度分解上下文建模(DDCM)是用于实现这一目标的关键组件。

Asymmetrical Residual Block(A)

在这里插入图片描述
非对称残差块增强了水平和垂直卷积核,以匹配驾驶场景中物体的点分布,并明确地使卷积核的骨架更强大,从而增强了对室外LiDAR点云稀疏性的鲁棒性。以汽车和摩托车为例,在图5中展示了非对称残差块的结构,其中3D卷积操作是在圆柱形网格上执行的。此外,与常规的正方形卷积核3D卷积块相比,所提出的非对称残差块还节省了计算和内存成本。通过整合非对称残差块,设计了非对称下采样块和上采样块,通过堆叠这些下采样和上采样块来构建非对称3D卷积网络。这些设计有助于提高网络的性能,并在处理室外LiDAR点云时提供了计算和内存的有效利用。

Dimension-Decomposition based Context Modeling (DDCM)

基于维度分解的上下文建模是为了捕获大范围上下文变化而设计的,因此全局上下文特征应该是高秩的,以具有足够的容量来捕获大范围的上下文信息 [49]。然而,直接构建这些高秩特征是困难的。因此,遵循张量分解理论 [8] 来构建高秩上下文,将其构建为低秩张量的组合,其中使用三个秩-1的核来获取低秩特征,然后将它们聚合在一起以获得最终的全局上下文。这种方法有助于提高网络对大范围上下文信息的建模能力。

Point-wise Refinement 模块

基于分区的方法通常会为每个单元格预测一个标签。虽然基于分区的方法可以有效地探索大范围的点云,但包括基于立方体和基于圆柱体的这一组方法不可避免地会遭受有损的单元格标签编码,例如,不同类别的点被分为同一单元格,这种情况会导致信息丢失。进行了一项统计来展示不同标签编码方法的效果,如图6所示,其中“majority encoding”表示使用单元格内点的主要类别作为单元格标签,而“minority encoding”表示使用次要类别作为单元格标签。可以观察到,它们都无法达到100%的mIoU(理想编码),并且不可避免地会有信息丢失。因此,引入了点级改进模块,以减轻有损的单元格标签编码的影响。
首先,将体素级特征基于点-体素映射表投影到点级特征。然后,点级模块将3D卷积网络之前和之后的点特征作为输入,并将它们融合在一起以改进输出。这种方法有助于提高语义分割的准确性,特别是在处理不同类别的点云时,避免了信息损失。
在这里插入图片描述
使用不同的标签编码方法(即,多数编码和少数编码)时,mIoU的上限。可以发现,无论采用什么编码方法,信息丢失总是会发生,这也是点级改进的原因。即使使用不同的编码方法,也无法达到理想的100% mIoU,因此点级改进模块的引入是为了减轻这种信息损失并提高语义分割的性能。

Objective Function(损失函数)

总损失函数由两个部分组成,包括体素级损失和点级损失。可以表示为 L = L_voxel + L_point。
对于体素级损失(L_voxel),遵循现有的方法 [10, 16],使用加权交叉熵损失和lovasz-softmax [4] 损失来最大化点准确度和交并比分数。
对于点级损失(L_point),只使用加权交叉熵损失来监督训练。
在推理时,point-wise refine 模块的输出用作最终输出。
对于优化器,使用Adam,初始学习率为1e-3。这些设置有助于训练和优化的模型,以获得更好的语义分割性能。

实验

实验设置

参数设置

For both two datasets, cylindrical partition splits these point clouds into 3D representation with the size = 480 × 360 × 32, where three dimensions indicate the radius, angle and height, respectively.

数据集

● SemanticKITTI
● nuScenes

评测方式

mIoU,定义如下:
在这里插入图片描述
whereT P i , F P i , F N i represent true positive, false positive, and false negative predictions for class i and the mIoU is the mean value of IoU i over all classes.

实验结果

在这里插入图片描述

消融实验

在这里插入图片描述
在这里插入图片描述

Generalization Analyses(泛化分析)

Generalize to LiDAR Panoptic Segmentation

在这里插入图片描述

generalize to LiDAR 3D Detection

在这里插入图片描述

结论

在这篇论文中,提出了一种用于LiDAR分割的圆柱形和非对称3D卷积网络,它有助于保持3D几何关系。具体而言,设计了两个关键组件,即圆柱形分区和非对称3D卷积网络,旨在有效而稳健地处理室外LiDAR点云中的固有困难,即稀疏性和变化密度。进行了广泛的实验和消融研究,在这些研究中,该模型在SemanticKITTI中获得第一名,在nuScenes中达到了最新水平,并在其他基于LiDAR的任务中具有良好的泛化能力,包括LiDAR全景分割和LiDAR 3D检测。
这些结果表明,所提出的方法在处理LiDAR点云分割任务方面表现出色,不仅在竞赛中取得了卓越的成绩,还在实际应用中具有广泛的应用前景,对于处理室外场景的LiDAR数据的挑战有良好的应对能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/314041.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

BP神经网络(公式推导+举例应用)

文章目录 引言M-P神经元模型激活函数多层前馈神经网络误差逆传播算法缓解过拟合化结论实验分析 引言 人工神经网络(Artificial Neural Networks,ANNs)作为一种模拟生物神经系统的计算模型,在模式识别、数据挖掘、图像处理等领域取…

【工具栏】RestfulTool 插件的使用(接口开发规范)

目录 1. 安装 2.使用 1. 安装 2.使用 点开控制层,该控制层写了什么接口一目了然 跳转对应的接口,查看代码

基于JAVA+ssm智能旅游线路规划系统设计与实现【附源码】

基于JAVAssm智能旅游线路规划系统设计与实现【附源码】 🍅 作者主页 央顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql…

【Jmeter之get请求传递的值为JSON体实践】

Jmeter之get请求传递的值为JSON体实践 get请求的常见传参方式 1、在URL地址后面拼接,有多个key和value时,用&链接 2、在Parameters里面加上key和value 第一次遇到value的值不是字符串也不是整型,我尝试把json放到value里面&#xff0…

迅为RK3588开发板编译 Buildroot单独编译图形化界面三

第三步:编译 Recovery 首先在 linux 源码目录下输入以下命令进入编译的 UI 界面,进入之后如下所示: ./build.sh 然后将光标移动到第四个 recovery,点击回车即可开始 recovery 的编译,编译过程如下所示: 编…

OpenAI推出GPT商店和ChatGPT Team服务

🦉 AI新闻 🚀 OpenAI推出GPT商店和ChatGPT Team服务 摘要:OpenAI正式推出了其GPT商店和ChatGPT Team服务。用户已经创建了超过300万个ChatGPT自定义版本,并分享给其他人使用。GPT商店集结了用户为各种任务创建的定制化ChatGPT&a…

重建传播网络并识别隐藏来源

1.摘要 我们从数据中揭示复杂网络结构和动态的能力,对于理解和控制复杂系统中的集体动态至关重要。尽管在这一领域已有近期进展,但如何从有限的时间序列中重建具有随机动态过程的网络仍然是一个突出问题。在这里,我们开发了一个基于压缩感知的…

微信小程序开发学习笔记《7》全局配置以及小程序窗口

微信小程序开发学习笔记《7》全局配置以及小程序窗口 博主正在学习微信小程序开发,希望记录自己学习过程同时与广大网友共同学习讨论。全局配置官方文档 一、全局配置文件及常用的配置项 小程序根目录下的app.json 文件是小程序的全局配置文件。 常用的配置项如…

企业培训系统源码:构建智能、可扩展的学习平台

企业培训系统在现代企业中扮演着至关重要的角色。本文将通过深度解析企业培训系统的源码,介绍如何构建一个智能、可扩展的学习平台,涉及关键技术和代码实例。 1. 技术栈选择与项目初始化 在构建企业培训系统之前,选择适当的技术栈是至关重…

逆矩阵计算

目录 一、逆矩阵的定义 核心:AB BA E 1)定义 2)注意 3)逆矩阵存在的条件|A| ! 0 二、核心公式: 三、求逆矩阵(核心考点) 1、伴随矩阵法 2、初等变换法(重点掌握&#xff…

<蓝桥杯软件赛>零基础备赛20周--第14周--BFS

报名明年4月蓝桥杯软件赛的同学们,如果你是大一零基础,目前懵懂中,不知该怎么办,可以看看本博客系列:备赛20周合集 20周的完整安排请点击:20周计划 每周发1个博客,共20周。 在QQ群上交流答疑&am…

统计学-R语言-4.1

文章目录 前言编写R函数图形的控制和布局par函数layout函数 练习 前言 安装完R软件之后就可以对其进行代码的编写了。 编写R函数 如果对数据分析有些特殊需要,已有的R包或函数不能满足,可以在R中编写自己的函数。函数的定义格式如下所示: …

如何用Mac工具制作“苹果高管形象照”

大伙儿最近有没有刷到“苹果高管形象照”风格,详细说来就是: 以苹果官网管理层简介页面中,各位高管形象照为模型,佐以磨皮、美白、高光等修图术,打造的看上去既有事业又有时间有氧的证件照,又称“苹…

AUTO SEG-LOSS SEARCHING METRIC SURROGATES FOR SEMANTIC SEGMENTATION

AUTO SEG-LOSS: 搜索度量替代语义分割 论文链接:https://arxiv.org/abs/2010.07930 项目链接:https://github.com/fundamentalvision/Auto-Seg-Loss ABSTRACT 设计合适的损失函数是训练深度网络的关键。特别是在语义分割领域,针对不同的场…

【QT实战】使用QT5制作一个简易串口助手详细教程,支持打包转发

文章目录 制作串口助手工程所涉及到的头文件ui布局制作串口配置选项添加修饰制作串口打印信息界面添加背景图片 函数查找串口并且添加到ui界面上显示串口数据接收槽函数串口发送槽函数打开串口槽函数 将串口助手封装成可执行文件 本项目的开发环境:windowsQT5qtcrea…

Vue-13、Vue绑定css样式

1、绑定css样式字符串写法&#xff0c;适用于&#xff1a;样式的类名不确定 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>绑定css样式</title><!--引入vue--><script type"tex…

什么是reids缓存雪崩、穿透、击穿

1.Reids缓存雪崩 Redis缓存key同一时间大量失效&#xff0c;导致大量请求全部打到数据库&#xff0c;造成数据库挂掉 解决方案 设置缓存失效时间&#xff0c;随机初始化失效时间 部署集群的时候&#xff0c;把热点数据平均分布到不同redis节点上去 暴力方法&#xff0c;不…

逆变器简述

一般家用电器&#xff0c;像微波炉&#xff0c;电饭煲等都是直接插墙壁上的电就可以工作&#xff0c;所以这些家用电器是使用我们市电AC220V的电压 但我们用到的手机&#xff0c;电瓶车以及新能源汽车都是需要充电器的&#xff0c;所以这些用电产品里面都是有电池的&#xff0…

扩展服务集

实验 扩展服务集 实验目的&#xff1a; 1.掌握无线局域网的基本组成和设备连接关系。 2.学习使用无线AP配置无线局域网的基本技能。 实验环境&#xff1a; 实验环境&#xff1a; 计算机 模拟器软件 实验过程与步骤&#xff1a; 1.画拓扑结构图 2.在无线AP上配置SSID和WPA2-P…

软件测试|selenium 元素无此属性NoSuchAttributeException问题分析与解决

简介 在使用Selenium进行Web自动化测试时&#xff0c;我们可能会遇到NoSuchAttributeException异常。这个异常通常在尝试访问一个元素的属性&#xff08;attribute&#xff09;时抛出&#xff0c;但该属性不存在。本文将介绍NoSuchAttributeException异常的常见原因以及解决方…