一、简述
从单一角度而自动合成3D数据是人类视觉和大脑的基本功能,这对计算机视觉算法来说是比较难的。但随着LiDAR、RGB-D 相机(RealSense、Kinect)和3D扫描仪等3D传感器的普及和价格的降低,3D 采集技术的最新进展取得了巨大飞跃。与广泛使用的 2D 数据不同,3D 数据具有丰富的尺度和几何信息,从而为机器理解提供了更广泛的机会。
然而,与2D数据相比,3D数据的可用性相对较低,且获取成本较高。因此,最近提出了许多深度学习方法来从可用的 2D 数据合成 3D 数据,而不依赖于任何3D传感器。但在深入研究这些方法之前,先了解处理3D数据的格式。
合成的三维数据可以根据数据的最终用途,而使用不同的格式表示。
一些常见的格式是:深度图像、点云、体素、网格、多视图图像、基于图元的CAD模型。
从研究的角度来看,每种类型的数据格式都有自己的属性,这些属性给深层架构设计带来了挑战,同时也为新颖高效的解决方案提供了机会。每种表示形式都适合自己的应用场景。
二、深度图像
RGB-D 图像是包含