【论文速看】DL最新进展20241015-目标检测、图像超分

目录

    • 【目标检测】
    • 【图像超分】

【目标检测】

[ECCV2024] LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

论文链接:https://arxiv.org/pdf/2407.11335

代码链接:https://github.com/eternaldolphin/LaMI-DETR

现有方法通过利用视觉-语言模型(VLMs)的鲁棒开放词汇识别能力来增强开放词汇目标检测,但存在两个主要挑战:(1)概念表示不足,其中CLIP的文本空间中的类别名称缺乏文本和视觉知识。(2)对基础类别的过拟合倾向,在从VLMs到检测器的转换过程中,开放词汇知识偏向于基础类别。为了应对这些挑战,作者提出了语言模型指令(LaMI)策略,该策略利用视觉概念之间的关系,并将其应用于一个简单而有效的DETR类检测器,称为LaMI-DETR。LaMI利用GPT构建视觉概念,并使用T5研究跨类别的视觉相似性。这些类间关系细化了概念表示并避免了对基础类别的过拟合。全面的实验验证了在同样严格设置下的方法相对于现有方法的优越性能,并且不依赖外部训练资源。URL-DETR在OV-LVIS上达到了43.4的box AP,超过了之前最佳结果7.8 box AP。

在这里插入图片描述

[ECCV 2024] Adaptive Multi-task Learning for Few-shot Object Detection

论文链接:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01149.pdf

代码链接:https://github.com/RY-Paper/MTL-FSOD

大多数少样本目标检测方法使用共享特征图进行分类和定位,尽管这两项任务的需求存在冲突。定位需要对尺度和位置敏感的特征,而分类则需要对尺度和位置变化鲁棒的特征。尽管少数方法已经认识到这一挑战并尝试解决它,但它们可能没有提供全面的解决方案。为了克服少样本目标检测中分类与定位之间的矛盾偏好,本文提出了一种自适应多任务学习方法,该方法具有新颖的精度驱动梯度平衡器。该平衡器通过动态调整两项任务的反向梯度比率,有效地缓解了冲突。此外,基于CLIP的知识蒸馏和分类细化方案被引入,旨在通过利用大型视觉语言模型的能力来增强单个任务的性能。实验结果表明,所提出的方法在基准数据集上一致地显示出比强大的少样本检测基线有所改进。

在这里插入图片描述


【图像超分】

[Sana] Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

机构:NVIDIA、MIT、清华

论文链接:https://arxiv.org/pdf/2410.10629

代码链接:https://nvlabs.github.io/Sana/

本文引入了Sana,一个文本到图像框架,能够高效生成高达 4096 × 4096 4096×4096 4096×4096分辨率的图像。Sana可以以极快的速度合成高分辨率、高质量的图像,并具有强大的文本-图像对齐功能,可在笔记本电脑GPU上部署。核心设计包括:(1)深度压缩自编码器:与传统的AE不同,它们只将图像压缩8倍,训练了一个可以将图像压缩32倍的AE,有效减少了潜在令牌的数量。(2)线性DiT:将DiT中的所有vanilla注意力替换为线性注意力,这在高分辨率下更高效,且不牺牲质量。(3)仅解码器的文本编码器:将T5替换为仅解码器的小型LLM作为文本编码器,并设计复杂的人类指令和上下文学习以增强图像-文本对齐。(4)高效的训练和采样:提出Flow-DPM-Solver来减少采样步骤,通过高效的标题标记和选择加速收敛。结果,Sana-0.6B与现代大型扩散模型(例如Flux-12B)非常具有竞争力,其大小仅为后者的1/20,测量吞吐量快100倍以上。此外,Sana-0.6B可以在16GB的笔记本电脑GPU上部署,生成 1024 × 1024 1024×1024 1024×1024分辨率的图像不到1秒。Sana使内容创作成本低廉。

在这里插入图片描述


[2024] Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution

论文链接:https://arxiv.org/pdf/2410.04224

代码链接:https://github.com/JianzeLi-114/DFOSD

扩散模型在现实世界图像超分辨率(Real-ISR)方面取得了优异的性能,但计算成本相当高。当前的方法试图通过知识蒸馏从多步模型中提取单步扩散模型。然而,这些方法带来了相当大的训练成本,并且可能会因为教师模型的局限性而限制学生模型的性能。为了解决这些问题,本文提出了一种无需蒸馏的单步扩散模型(DFOSD)。具体来说,提出了一个**噪声感知判别器(NAD)来参与对抗性训练,进一步增强生成内容的真实性。此外,通过边缘感知的DISTS(EA-DISTS)**改进了感知损失,以增强模型生成细节的能力。实验表明,与需要数十步甚至数百步的基于扩散的先前方法相比,DFOSD在定量指标和定性评估中都取得了可比甚至更优的结果。与其他单步扩散方法相比,DFOSD也获得了更高的性能和效率。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/891447.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android ImageView scaleType使用

目录 一、src设置图片资源 二、scaleType设置图片缩放类型 三、scaleType具体表现 matrix: fitXY: fitStart: fitCenter: fitEnd: Center: centerCrop: centerInside: 控制ImageView和图片的大小保持一致…

【优选算法】(第四十一篇)

目录 被围绕的区域(medium) 题目解析 讲解算法原理 编写代码 迷宫中离⼊⼝最近的出⼝(medium) 题目解析 讲解算法原理 编写代码 被围绕的区域(medium) 题目解析 1.题目链接:. - 力扣&a…

创建docker虚拟镜像,创建启动服务脚本

进入系统命令服务目录 编辑服务 [Unit] DescriptionDocker Application Container Engine Documentationhttps://docs.docker.com Afternetwork-online.target firewalld.service Wantsnetwork-online.target [Service] Typenotify ExecStart/usr/bin/dockerd ExecReload/bin/…

[旧日谈]关于Qt的刷新事件频率,以及我们在Qt的框架上做实时的绘制操作时我们该关心什么。

[旧日谈]关于Qt的刷新事件频率,以及我们在Qt的框架上做实时的绘制操作时我们该关心什么。 最近在开发的时候,发现一个依赖事件来刷新渲染的控件会导致程序很容易异常和崩溃。 当程序在运行的时候,其实软件本身的负载并不高,所以…

【量化交易】聚宽安装

安装JQData 更换源: 如果使用的是pip默认的PyPI源,可以尝试更换为一个更快的国内镜像源。例如阿里云、豆瓣等提供的PyPI镜像。 更改方法可以通过设置环境变量或者在pip命令中直接指定: PS C:\Users\bilirjs\Documents> pip config set …

fastadmin 多商户模式下侧边栏跳转路径BUG

记录:仅作自己项目记录,在一个域名下部署多套项目时,若是多商户模式项目会出现跳转路径问题。 修改 \manystore\library\Auth.php 文件的 getSidebar 方法 // 1 改为: $v[url] isset($v[url]) && $v[url] ? $v[url] :…

一键快捷回复软件助力客服高效沟通

双十一临近,电商大战一触即发!在这个购物狂欢的热潮中,客服团队的效率至关重要。今天我要和大家分享一个非常实用的快捷回复软件,特别是为电商客服小伙伴们准备的。这款软件能够极大地提高你的工作效率,让你在处理客户…

前端布局与响应式设计综合指南(二)

​🌈个人主页:前端青山 🔥系列专栏:Css篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来Css篇专栏内容:前端布局与响应式设计综合指南(二) 目录 23、行内元素和块级元素?img算什么&…

音视频入门基础:FLV专题(15)——Video Tag简介

一、引言 根据《video_file_format_spec_v10_1.pdf》第75页,如果某个Tag的Tag header中的TagType值为9,表示该Tag为Video Tag: 这时StreamID之后紧接着的就是VideoTagHeader,也就是说这时Tag header之后的就是VideoTagHeader&…

热成像人像算法呈现方式!

一、热红外成像技术 热红外成像技术利用物体发出的红外辐射进行成像,这种辐射与物体的温度有关。因此,热红外成像可以不受光照条件的影响,且在图像中,人体由于温度较高,通常会比背景显得更亮。 二、图像处理算法 阈…

远翔原厂芯片设计开发软件:降压恒流共阳极无频闪调光芯片FP7126/7127/7128,舞台灯磁吸轨道灯智能家居应用方案

FP7126 FP7127 FP7128是平均电流模式控制的 LED 驱动 IC,具有稳定输出恒流的能力,优秀的负载调整率与高精度的电流控制。不用额外增加外部补偿元件,简化 PCB 板设计。FP7126 FP7127 FP7128可接受 PWM 数位调光,建议调光频率 0.1kH…

[C++ 核心编程]笔记 4.1.4 类和对象 - 案例1

类和对象: 案例1: 设计立方体类(Cube) 求出立方体的面积和体积分别用全局函数和成员函数判断两个立方体是否相等。 设计方法: 创建立方体类设计属性设计行为 求立方体面积和体积分别用全局和成员函数 判断立方体是否相等 #include<iostream> using namespace std;clas…

音频剪辑在线工具 —— 让声音更精彩

你是否曾梦想过拥有自己的声音创作空间&#xff0c;却苦于复杂的音频编辑软件&#xff1f;接下来&#xff0c;让我们一同揭开这些音频剪辑在线工具的神秘面纱&#xff0c;看看它们如何帮助你实现从录音到发布的无缝衔接。 1.福昕音频剪辑 链接直达>>https://www.foxits…

勇攀保研高峰:解锁环节与要点,更容易上岸成功

在大学的逐梦之旅中&#xff0c;保研宛如一座令人向往的学术高峰&#xff0c;吸引着无数优秀学子奋力攀登。对于那些渴望在学术道路上更进一步的同学来说&#xff0c;了解保研的各个环节和考察要点至关重要。那么&#xff0c;保研究竟有着怎样的神秘路径呢&#xff1f;让我们一…

ArcGIS中分区统计栅格值前需要进行投影吗(在投影坐标系下进行吗),为什么?

最近&#xff0c;我接到了一个分区统计栅格数值前需要进行投影&#xff0c;或者说是必须需要在投影坐标系下进行吗的咨询。 答案是不需要刻意去变。 但是他又说他把地理坐标系下分区统计结果与投影坐标系下的分区统计结果分别做了一遍&#xff0c;并进行了对比&#xff0c;两个…

day11-SpringMVC

一、SpringMVC 1.SpringMVC流程分析 2.各种注解 3.接收请求参数 3.1 简单类型 3.2 对象类型 3.3 数组类型 3.4 集合类型 3.5 日期类型 3.6 json参数类型 3.7 路径参数 二、统一异常处理 三、Restful

基础教程 | 用VuePress搭建一个简单的个人博客(附源码)

先附上自己个人博客页面&#xff1a;https://illusionno.github.io/ 源码也在这里&#xff1a;https://github.com/illusionno/my-blog &#xff08;如果觉得有帮助&#xff0c;可以点颗star✨&#xff09; 使用的主题是vuepress-theme-reco2.x&#xff0c;并在上面进行了一些调…

软考——计算机网络概论

&#x1f550;计算机网络分类 1️⃣通信子网和资源子网 通信子网&#xff1a;通信节点&#xff08;集线器、交换机、路由器等&#xff09;和通信链路&#xff08;电话线、同轴电缆、无线电线路、卫星线路、微博中继线路和光纤缆线&#xff09;。用户资源子网&#xff1a;PC、…

快速理解http的get和post

在网络通信中&#xff0c;HTTP 协议扮演着非常重要的角色&#xff0c;而不同的 HTTP 方法决定了客户端与服务器之间的交互方式。 这里讲一下最常用的两种方法——GET 和 POST。 一、GET 方法 GET 方法用于从服务器获取资源。 这就像去图书馆借书——你向图书馆请求一本特定的…

理解智能合约:区块链在Web3中的运作机制

随着区块链技术的不断发展&#xff0c;“智能合约”这一概念变得越来越重要。智能合约是区块链应用的核心之一&#xff0c;正在推动Web3的发展&#xff0c;为数字世界带来了前所未有的自动化和信任机制。本文将深入探讨智能合约的基本原理、运作机制&#xff0c;以及它在Web3生…