计算机视觉算法分享。问题或建议,请文章私信或者文章末尾扫码加微信留言。
1 论文题目
- 用于RGB-D显著对象检测等领域的三维卷积神经网络
2 论文摘要
- RGB-deph(RGB-D)显著目标检测(SOD)近年来引起了越来越多的研究兴趣,出现了许多基于编解码器架构的深度学习方法。然而,现有的RGB-D SOD模型大多在单编码器或解码器阶段进行显式可控的跨模态特征融合,这很难保证足够的跨模态融合能力。为此,我们首次尝试通过三维卷积神经网络来解决RGB-D SOD问题。该模型名为RD3D,旨在实现编码器阶段预融合和解码器阶段深度融合,有效促进RGB和深度流的全面集成。具体来说,RD3D首先通过膨胀的2-D ResNet获得的3-D编码器对RGB和深度模式进行预融合,然后通过设计一个具有丰富背投影路径(RBPPs)的3-D解码器提供深度特征融合,以利用3-D卷积的广泛聚合能力。对于一个改进的模型RD3D+,我们建议将传统的三维卷积分解为连续的空间和时间卷积,同时丢弃不必要的零填充。这最终导致了2维卷积等价,促进了优化,减少了参数和计算成本。由于这种涉及编码器和解码器的渐进融合策略,可以利用两种种模式之间的有效和彻底的交互,并提高检测精度。作为个额外的提升,我们还引入了通道-模态注意及其在RBPP的每个路径后的变体,以关注重要的特征。在7个广泛使用的基准数据集上进行的广泛实验表明,在关键评估指标方面,RD3D和RD3D+比14种最先进的RGB-D SOD方法表现。
3 论文创新点
- 利用在编码器阶段的预融合的想法,提出通过一个三维卷积编码器来解决这个问题,可以有效地融合跨模态特征与-输出需要专用或复杂的模块。此外,我们提出对三维卷积进行分解,得到相关的二维卷积等价性,这有助于网络优化,减轻了的计算负担。
- 设计一个3d解码器,将rbpp与定制的通道模态注意CMA模块及其变体结合起来,以更好地利用3d卷积的广泛聚合能力,关注重要的特性。
- 基于上述编码器和解码器设计,我们实现了RGB-D SOD任务的第一个3-Dcnn模型,即RD3D和RD3D+。RD3D+比RD3D获得了实质性的改进,是更轻和更准确的。
- 通过对7个基准数据集的综合评估,表明RD3D和RD3D+显著地超过了14种最先进的(SOTA)方法。综合消融研究,包括使用骨干,有/不有分解,以及不同的注意变体,以验证RD3D和RD3D+的有效性和有效性。此外,我们应用RD3D和RD3D+对rgb-热SOD和视频SOD进行处理,以进一步展示其的适用性。
4 论文架构
5 不足之处
- RD3D的故障可能来自于低质量的深度图。如图11所示,第二列中质量较差的深度图,不可避免地会给模型带来噪声导致了不准确的预测。最近的一些进展,已经设计了定制的模块来增强或纠正深度图,以缓解这样的问题。然而,在我们的RD3D模型中,深度信息通过隐式的3-D卷积与RGB模型融合,对低质量的深度地图没有任何特定的处理/控制。
6 未来展望
- 在未来,我们希望RD3D能够鼓励更多基于3-Dcnn的RGB-D SOD设计。一种可能的方法是使用3-D/体积cnn处理基于rgb-D的3d数据,但潜在挑战是克服深度的糟糕质量,这可能导致糟糕的3d数据/布局恢复。我们相信这是一个未来需要研究的有趣问题。
7 论文地址
- https://ieeexplore.ieee.org/abstract/document/9889257
8 论文代码
- https://github.com/PPOLYpubki/RD3D
计算机视觉最新进展-Sora
-
尽管Sora目前尚未向公众开放,但据悉,它可能首先向OpenAI的付费用户提供,如ChatGPT Plus用户(升级 ChatGPT Plus 的教程)。Sora的推出将极大地简化视频创作流程,并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora,可关注官方网站获取最新信息。
-
如有其他疑问可以加以下微信二维码联系
- 更多计算机视觉最新最先进算法请扫描关注以下公众号