多尺度特征融合13种创新方案全面汇总,含2024年最新

前段时间和大佬朋友交流学术的时候,发现目前发论文最好用的2大创新方式一是加注意力机制,二是多尺度特征融合。上回我们讲过了加注意力机制,今天我们就来聊聊多尺度特征融合。

多尺度特征融合是一种在图像处理和CV中使用的技术,由于其在各种任务中都通用,并且对改善识别、分类或检测任务的性能都非常有用,所以成了我们发paper的必备创新点。

这次我就和同学们分享多尺度特征融合的13种创新思路,分了4个大方向:自适应多尺度特征融合机制、基于图神经网络的多尺度融合、注意力引导的多尺度特征融合以及端到端的多尺度特征学习。

论文原文以及开源代码合集看文末

1.scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution(WACV 2024)

用于高效空时视频超分辨率的尺度自适应特征聚合

简述:STVSR任务的目标是通过同时执行视频帧插值和视频超分辨率来提高视频的视觉质量。然而,现有的STVSR方法在处理额外的时间维度和尺度不一致性时既复杂又不灵活。作者发现,选择适当的处理尺度在基于流的特征传播中能获得显著的好处。为此,作者提出了一种新的尺度自适应特征聚合(SAFA)网络。该网络能够为各个样本自适应地选择具有不同处理尺度的子网络。

2.CENet:Cascade Fusion Network for Dense Prediction

用于密集预测的级联融合网络

简述:在处理图像中物体检测和分割这类任务时,使用不同大小的特征很重要。现在的方法通常先通过一个主网络提取特征,然后再合并它们,但这样做有时会延迟合并,效果不佳。作者提出了一个新的网络结构CEDNet,它能更好地合并这些特征,并且整体效果更好。实验证明,这个方法在相关任务上很有效。

3.Centralized Feature Pyramid for Object Detection

用于目标检测的集中特征金字塔

简述:特征金字塔在图像识别任务中很有用,但现有方法主要关注不同层之间的交互,忽略了同一层内特征的处理。一些方法尝试用注意力机制改进这一点,但还是漏掉了图像角落区域的信息,这对精确识别很重要。作者提出了一种新的集中式特征金字塔(CFP),它能全局地优化特征,并且特别关注图像的角落。实验表明,这种方法在物体检测方面比现有技术更好。

4.LITE-HRNET PLUS: FAST AND ACCURATE FACIAL LANDMARK DETECTION

快速且准确的面部特征点检测

简述:面部特征点检测对实时跟踪驾驶员状态很重要。Lite-HRNet可以快速估计特征点,但存在计算成本高的问题。作者提出了一个新的架构,Lite-HRNet Plus,它改进了融合块和输出模块,减少了计算量。实验表明,Lite-HRNet Plus比传统方法更准确,而且计算复杂度低。

5.Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases

基于可变形DETR和多层次特征融合的精确白细胞检测

简述:医院血液检测中,医生通常需要手动在显微镜下识别血液中的白细胞。这个过程耗时且容易出错。现代的白细胞检测方法在处理特征不明显或大小不一的白细胞图像时也存在问题。为了改善这些问题,作者提出了一个新型的白细胞检测方法:多级特征融合和可变形自注意力DETR(MFDS-DETR)。这个方法通过结合不同层级的特征和使用特殊的模块来提取白细胞的详细信息,提高了检测的准确性。

6.MICN: MULTI-SCALE LOCAL AND GLOBAL CONTEXTMODELING FOR LONG-TERM SERIES FORECASTING

面向长期时间序列预测的多尺度局部与全局上下文建模

简述:论文提出了一种新的时间序列预测方法,叫做多尺度等距卷积网络(MICN)。这个方法结合了局部特征和全局关系来更好地理解时间序列数据。通过使用不同尺度的结构,它能够分别捕捉不同的模式。MICN既有效又高效,实验结果显示它在多个数据集上比现有技术表现得更好。

7.M2SNet: Multi-scale in Multi-scale SubtractionNetwork for Medical Image Segmentation

用于医学图像分割的多尺度多尺度减法网络

简述:论文提出了一种新的医学图像分割方法,叫做多尺度多尺度减法网络(M2SNet)。这个方法使用一个特殊的单元来提取图像不同层次之间的差异特征。通过这种方式,它可以更好地捕捉病变的细节和结构信息,从而提高分割的准确性。在不同的医学图像数据集上的测试表明,M2SNet的表现优于许多现有技术。

8.MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

用于动作检测的多尺度时间卷积transformer

简述:作者设计了一个新的动作检测网络——MS-TCT,用来在复杂视频中识别动作。这个网络通过三个主要部分来工作:(1)探索不同时序下的动作关系;(2)将不同时间尺度的特征有效结合;(3)预测视频中每一帧的动作类别。MS-TCT在几个难处理的数据集上都取得了比现有技术更好的效果。

9.Scale-Aware Modulation Meet Transformer

尺度感知调制遇见Transformer

简述:作者设计了一个新的视觉Transformer模型,称为尺度感知调制Transformer(SMT),它结合了卷积网络和Transformer技术,能高效处理多种图像识别任务。这个模型有两个创新点:一是引入了一个能捕捉不同大小特征的模块;二是设计了一个轻量级的信息融合模块。这两个模块提升了模型的性能。此外,与之前模型全程使用调制不同,新模型模拟了从局部到全局特征捕捉的过程,取得了更好的效果。

10.Title: Towards Efficient Use of Multi-Scale Features inTransformer-Based Obiect Detectors

基于Transformer的目标检测器中多尺度特征的高效利用

简述:论文提出了一种新方法,使得基于Transformer的目标检测器能够高效地使用多尺度特征。这种方法通过两个主要设计实现:一是重新组织Transformer的工作流程,使得特征可以根据检测结果进行更新;二是在关键位置稀疏地选择适合的特征来改进检测。这种方法虽然只使用了少数位置的特征,但仍然能显著提高目标检测的性能,并且计算成本增加不多。

11.Shunted Self-Attention via Multi-Scale Token Aggregation

通过多尺度令牌聚合的分流自注意力

简述:论文提出了一种新的方法,称为分流自注意力(SSA),用于改善视觉Transformer(ViT)模型处理不同大小物体的图像时的性能。SSA通过合并代表大物体特征的令牌,同时保留细节特征的令牌,使得每一层的注意力机制能同时考虑不同尺度的特征。这种方法提高了模型的准确性,同时减少了计算成本。实验结果显示,SSA在多个任务中都取得了很好的效果。

12.CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification

用于图像分类的跨注意力多尺度视觉Transformer

简述:作者提出了一种新的视觉Transformer模型,称为CrossViT,专门用于图像分类。这个模型通过两个分支处理不同大小的图像块,并使用交叉注意力机制将它们结合起来,以获得更强的特征表示。这种方法提高了性能,同时保持了较低的计算成本。实验结果显示,CrossViT在ImageNet数据集上的表现优于其他一些先进的模型。

13.Effective Image Tampering Localization with Multi-Scale ConvNeXt Feature Fusion

利用多尺度ConvNeXt特征融合有效定位图像篡改

简述:论文提出了一种基于ConvNeXt网络和多尺度特征融合的有效图像篡改定位方案。堆叠的ConvNeXt块被用作编码器来捕获分层的多尺度特征,然后在解码器中融合这些特征以准确定位被篡改的像素。结合损失和有效的数据增强被采用来进一步提高模型性能。广泛的实验结果表明,该方案的定位性能优于其他最先进的方法。

 

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多尺度特征融合”获取论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/347384.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

05-Seata下SQL使用限制

不支持 SQL 嵌套不支持多表复杂 SQL(自1.6.0版本,MySQL支持UPDATE JOIN语句,详情请看不支持存储过程、触发器部分数据库不支持批量更新,在使用 MySQL、Mariadb、PostgreSQL9.6作为数据库时支持批量,批量更新方式如下以 Java 为例 …

大创项目推荐 题目:垃圾邮件(短信)分类 算法实现 机器学习 深度学习 开题

文章目录 1 前言2 垃圾短信/邮件 分类算法 原理2.1 常用的分类器 - 贝叶斯分类器 3 数据集介绍4 数据预处理5 特征提取6 训练分类器7 综合测试结果8 其他模型方法9 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于机器学习的垃圾邮件分类 该项目…

网络协议与攻击模拟_09部署DHCP服务器

一、部署DHCP服务器 Windows server部署DHCP服务器 1、虚拟机网络架构理解 Vmware里面不同的虚拟机可以设置相同的Vmnet网络,也可以设置不同的Vmnet网络。两台虚拟机设置相同的Vmnet1网卡,可以看作为使用虚拟交换机将两台Vmnet1的虚拟机连接起来的。 …

在使用springboot框架式的的script无法通过${}来获取值

今天使用springboot框架做项目&#xff0c;想着来实现一下搜索的下拉框回显功能&#xff0c;然后就一直在报错误&#xff0c;关键是报的错误牛头不对马嘴&#xff0c;检查了一下后端代码&#xff0c;发现没什么问题&#xff0c;就把目光聚焦了.jsp页面的代码 <script type&…

xinput1_3.dll文件的几种修复办法以及修复xinput1_3.dll注意事项

xinput1_3.dll文件是DirectX的一部分&#xff0c;它在Windows系统中负责处理游戏控制器的输入。然而&#xff0c;有时候此文件可能会出现问题&#xff0c;导致游戏无法正常运行或启动。在本文中&#xff0c;将介绍多种解决xinput1_3.dll文件问题的方法&#xff0c;并对它们进行…

Linux本地部署MeterSphere测试平台并实现公网远程访问

文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址 前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…

Java项目:基于SSM框架实现同城蔬菜配送管理系统(SSM+B/S架构+源码+数据库+毕业论文)

一、项目简介 本项目是一套ssm825基于SSM框架实现同城蔬菜配送管理系统&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&…

Go Zero微服务个人探究之路(十)实战走通微服务前台请求调用的一套流程model->rpc微服务->apiHTTP调用

前言 Go语言凭借低占用&#xff0c;高并发等优秀特性成为后台编程语言的新星&#xff0c;GoZero框架由七牛云技术副总裁团队编写&#xff0c;目前已经成为Go微服务框架里star数量最多的框架 本文记录讲述笔者一步步走通前台向后台发出请求&#xff0c;后台api调用rpc服务的相…

【AI大模型】WikiChat超越GPT-4:在模拟对话中事实准确率提升55%终极秘密

WikiChat&#xff0c;这个名字仿佛蕴含了无尽的智慧和奥秘。它不仅是一个基于人工智能和自然语言处理技术的聊天机器人&#xff0c;更是一个能够与用户进行深度交流的智能伙伴。它的五个突出特点&#xff1a;高度准确、减少幻觉、对话性强、适应性强和高效性能&#xff0c;使得…

蓝桥杯备战——4.继电器/蜂鸣器

1.分析原理图 最好自己先去查查138以及ULN2003的使用方法&#xff0c;我这里直接讲思路。 由上图我们可以看到如果138输入ABC101,则输出Y50,此时若WR通过跳线帽接地则Y5C1 &#xff0c;于是573(U9)处于输出跟随输入P0状态&#xff0c;此时若P061&#xff0c;则573输出Q71&am…

ITSS服务工程师:开启IT职业生涯的金钥匙

&#x1f525;ITSS是中国电子技术标准化研究院推出的&#xff0c;涵盖了“IT服务工程师”和“IT服务经理”的系列培训。它不仅满足GB/T 28827.1的符合性评估要求&#xff0c;还助力IT服务资质升级。 &#x1f3af;“IT服务工程师”培训从服务技术、服务技巧和服务规范三大板块&…

加载服务端发送的模型文件_unity开发进阶

加载服务端发送的模型文件 前言一、服务端搭建二、unity请求文件三、加载模型结语 前言 之前我们学习制作的都是离线状态下的东西&#xff0c;今天我们学习制作一个小demo。 内容就是我们用unity请求后台&#xff0c;接受后台发送过来的模型&#xff0c;然后将模型加载到场景中…

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战&#xff0c;但实际上&#xff0c;Whisper的使用者完全可以针对中文的语音做一些优化的措施&#xff0c;换句话说&#xff0c;Whisper的“默认”形态可能在中文领域斗不过FunAsr&#xff0c;但是经过中文特殊优化的Whi…

面试官:请问泛型擦除、泛型上界、泛型下界、PECS原则 是什么?

什么是泛型 泛型的本质是 类型参数化&#xff0c;解决类型爆炸的问题。 所谓泛型是指将类型参数化&#xff0c;以达到代码复用提高软件开发工作效率的一种数据类型。 然后我们要定义一个盘子 plate&#xff0c;注意这个盘子除了 装入食物food之外&#xff0c;还可以装其他的…

【Kubernetes】深入了解Kubernetes(K8s):现代容器编排的引领者

欢迎来到英杰社区&#xff1a; https://bbs.csdn.net/topics/617804998 欢迎来到阿Q社区&#xff1a; https://bbs.csdn.net/topics/617897397 作者简介&#xff1a; 辭七七&#xff0c;目前大二&#xff0c;正在学习C/C&#xff0c;Java&#xff0c;Python等 作者主页&#xf…

leetcode — 贪心算法— 买卖股票的最佳时机

1 题目描述 给定一个数组 prices &#xff0c;它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票&#xff0c;并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大利润。 返回你可以从这笔交易中获取…

无限学模式-“科研创新的加速器:全面掌握ChatGPT,推动研究方法和工作模式现代化!“

2023年随着OpenAI开发者大会的召开&#xff0c;最重磅更新当属GPTs&#xff0c;多模态API&#xff0c;未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义&#xff0c;不亚于互联网和个人电脑的问世。360创始人周鸿祎认为未来各行各业如果不能搭上这班车…

好书推荐丨豆瓣评出9.2高分!Python编程入门就看蟒蛇书

目录 写在前面 内容简介 业内专家推荐 编辑推荐 资源丰富 作者介绍 Q&A 粉丝福利 写在后面 写在前面 在这日新月异的科技新时代&#xff0c;编程如同一把万能钥匙&#xff0c;为无数人打开了通向无限可能的大门。而在众多编程语言中&#xff0c;Python无疑是最耀…

【CANoe使用大全】——DBC数据库制作

文章目录 1.DBC数据库选择1.1.DBC模板选择1.3. 新建报文1.4. 新建信号1.5.数值表建立 2. DBC导入 1.DBC数据库选择 首先找到DBC编辑器入口 1.1.DBC模板选择 举例说明&#xff1a; 新建选择CANFD的模板 1.3. 新建报文 注意上图中报文周期“Cycle Time”处于不可编辑状态…

【C++】介绍STL中list容器的常用接口

目录 一、STL中的list简介 二、构造函数 2.1 默认构造函数 2.2 填充构造&#xff08;用n个相同的值构造&#xff09; 2.3 迭代器构造 2.4 拷贝构造和赋值运算符重载 三、迭代器 3.1 正向迭代器 3.2 反向迭代器 四、容量相关 4.1 获取list中有效数据的个数 4.2 判…