一、引言
传统的深度学习方法(如卷积神经网络CNN和循环神经网络RNN)在捕捉长距离依赖关系时存在局限性。CNN主要关注局部邻域的特征,而RNN则依赖于序列的递归计算,无法直接捕捉全局信息。为了解决这一问题,本文提出了一种非局部神经网络(Non-local Neural Networks),通过非局部操作捕捉长距离依赖关系。
非局部操作的核心思想是:在计算某一位置的特征响应时,不仅仅依赖于局部邻域,而是参考整个特征图上的所有位置。通过这种方式,非局部操作能够有效捕捉全局信息,从而提升模型在视频分类、物体检测、分割和姿态估计等任务中的性能。
二、非局部操作的定义
非局部操作的数学定义如下:
公式:
对于输入特征图 ,非局部操作的输出为:
其中: