今天给大家推荐一个,创新Top且热度持续攀升的方向:傅里叶变换+注意力机制!
傅里叶变换能够捕捉到频域的特征,而注意力机制则能使模型专注任务相关信息。两者结合,不仅能提升模型的性能和效率,还能增强模型的解释性,以及解决特定问题(应对噪声干扰、处理长程依赖)。且在时间序列预测、多模态融合、图像处理等诸多任务中都已验证。
因此,其在NeurIPS、AAAI等顶会,都是“红人”;而作为新思路,当前还在发展期,还不算卷,可挖掘创新空间很大。比如优化计算效率、增强泛化性、与生物等其他学科或者场景交叉……
为让大家能够开拓视野,获得更多灵感启发,我给大家准备了12种前沿创新思路和源码,一起来看!
论文原文+开源代码需要的同学看文末
论文:GA: Fourier-Guided Attention Network for Crowd Count Estimation
内容
该论文提出了一种名为FGA的新型注意力机制,用于人群计数任务。FGA通过结合快速傅里叶变换(FFT)和空间/通道注意力机制,高效地捕捉多尺度信息,包括全局模式和局部特征。该模块采用双路径架构:一条路径通过FFT处理全局特征,另一条路径通过传统卷积和通道注意力处理半全局和局部特征能够在多个基准数据集上显著提升性能,降低均方误差(MSE)和平均绝对误差(MAE)。
论文:Rethinking Fourier Transform from A Basis Functions Perspective for Long-term Time Series Forecasting
内容
该论文提出了一种名为FBM的新方法,用于长期时间序列预测(LTSF)。FBM从基函数的角度重新思考傅里叶变换,将频率分量的实部和虚部视为分层频率水平下的余弦和正弦基函数的系数。该方法通过傅里叶基展开混合时域和频域特征,解决了现有傅里叶方法中存在的“不一致起始周期”和“不一致序列长度”问题。
论文:Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection
内容
该论文提出了一种基于快速傅里叶变换(FFT)的深度网络模型DFENet,用于RGB和热成像(RGB-T)图像中的显著目标检测(SOD)。该模型通过三个关键模块克服了现有Transformer模型计算复杂度高和预测与真值之间频率差异的问题:模态协调感知注意力模块(MPA)用于融合RGB和热成像模态;频率分解边缘感知块(FEB)用于澄清目标边缘;傅里叶残差通道注意力块(FRCAB)用于优先处理高频信息。
论文:GAFNet: A Global Fourier Self Attention Based Novel Network for multi-modal downstream tasks
内容
该论文提出了一种名为GAFNet的新型网络架构,专为多模态下游任务设计。GAFNet通过引入全局傅里叶自注意力模块(GAF模块),将图像和文本等多种模态信息融合到一个统一的潜在空间中,解决了多模态学习中模态间异构性的问题,在CrisisMMD数据集的多模态分类任务和COCO数据集的图像生成任务上达到了新的最佳性能,并在图像-文本检索任务上取得了具有竞争力的结果。
关注下方《人工智能学起来》
回复“傅里叶注意”获取全部论文+开源代码
码字不易,欢迎大家点赞评论收藏