CV每日论文--2024.5.10

1、Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

中文标题:扩散模型的注意力驱动的训练免费效率增强

简介:扩散模型在生成高质量和多样化图像方面取得了出色的表现,但其卓越性能是以昂贵的架构设计为代价的,特别是广泛使用注意力模块。现有的工作主要通过重新训练的方式来提高扩散模型的效率,但这种方法计算开销大,可扩展性也较差。

为此,我们提出了一种基于注意力驱动的无训练高效扩散模型(AT-EDM)框架。该框架利用注意力图在运行时修剪冗余标记,无需任何重新训练。具体而言,我们开发了一种新的排名算法"广义加权页面排名(G-WPR)"来识别冗余标记,并提出了一种基于相似性的恢复方法来恢复卷积操作的标记。此外,我们还提出了一种"去噪步骤感知修剪(DSAP)"方法,以调整不同去噪步骤之间的修剪预算,以获得更好的生成质量。

广泛的评估结果表明,AT-EDM在提高效率方面表现出色,例如,与Stable Diffusion XL相比,可节省38.8%的FLOPs,并提高了1.53倍的速度,同时保持了与完整模型几乎相同的FID和CLIP分数。项目网页:https://atedm.github.io。

2、Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation

中文标题:Imagine Flash:利用反向蒸馏加速emu扩散模型

简介:扩散模型是一种强大的生成框架,但在推理时需要大量计算资源,这是一个主要挑战。现有的加速方法往往会损害生成图像的质量,或在极低步长的情况下无法良好工作。

在这项研究中,作者提出了一种新的蒸馏框架,目标是通过仅使用1-3个步骤就能实现高保真度和多样性的样本生成。这个方法包括三个关键组成部分:

反向蒸馏:通过在模型自身的反向轨迹上校准学生模型,来缓解训练-推理的差异。

移位重构损失:根据当前时间步动态调整知识转移,以提高生成的准确性。

噪声校正:在推理时采用的一种技术,通过解决噪声预测中的奇异性,来增强生成样本的质量。

作者通过大量实验证明,该方法在定量指标和人类评估方面都优于现有的竞争方法。值得一提的是,仅使用3个去噪步骤就能达到与教师模型相当的性能,实现了高效的高质量样本生成。

3、Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions

中文标题:从噪音中提取水印(PWFN):一种改进的抗强干扰水印模型

简介:数字水印技术能够将秘密信息嵌入图像中,而人眼是无法察觉这种改变的。为了提高模型的抗干扰能力,许多基于深度学习的数字水印方法使用了编码器-解码器架构,并向噪声层添加不同类型的噪声。解码器则从受损的图像中提取水印信息。但这种方法只能抵御较弱的噪声攻击。

为了提高算法对强噪声的鲁棒性,本文提出在噪声层和解码器之间引入去噪模块,以减少噪声干扰并恢复部分丢失的信息。此外,本文还引入了SE模块,在像素和通道维度融合数字水印信息,从而提高编码器的性能。

实验结果表明,本文提出的方法不仅与现有模型相当,在不同强度噪声下也优于最先进的方法。消融实验也验证了所提出模块的有效性。

总的来说,这项研究提出了一种新颖的数字水印方法,在抗噪声干扰方面显示出良好的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/623337.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

1727jsp思想政治活动Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 思想政治活动管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff…

【VTKExamples::Rendering】第十期 TestStippledLine

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 公众号:VTK忠粉 前言 本文分享VTK样例TestStippledLine,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 1. TestStippledLin…

【机器学习】机器学习与人工智能融合新篇章:自适应智能代理在多元化复杂环境中的创新应用与演进趋势

🔒文章目录: 💥1.引言 🚋1.1 机器学习与人工智能的发展背景 🚌1.2 自适应智能代理的概念与重要性 🚐1.3 研究目的与意义 ☔2.自适应智能代理的关键技术 🛣️2.1 环境感知与信息处理技术 …

JavaEE技术之SpringCloud(Nacos注册中心、Nacos配置中心、Sentinel实现熔断与限流)

文章目录 SpringCloud Alibaba1、简介1.1 背景1.2 Nacos主要功能1.3 Nacos和SpringBoot、SpringCloud版本选择 2、Nacos注册中心2.1 案例准备2.2 Nacos注册中心下载启动2.2.1 下载2.2.2 解压启动2.2.3 nacos-server访问测试 2.3 nacos注册中心客户端整合2.3.1 订单服务整合naco…

英伟达解码性能NVDEC

如果你能打开官网,请看这里: NVDEC Application Note 下面是摘录:

python数据可视化:从n个点中挑选m组3个点绘制m个三角形matplotlib.pyplot.triplot()

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 python数据可视化: 从n个点中挑选m组3个点 绘制m个三角形 matplotlib.pyplot.triplot() [太阳]选择题 以下关于matplotlib.pyplot.triplot()函数说法正确的是? impor…

Python环境变量的访问:从入门到精通

环境变量是操作系统中的一种特殊变量,它允许用户在不修改程序的情况下,通过配置文件来改变程序的行为。在Python中,访问环境变量是一个常见的需求,无论是为了读取配置信息、获取系统信息,还是进行程序调试。本文将详细…

draw.io 网页版二次开发(1):源码下载和环境搭建

目录 一 说明 二 源码地址以及下载 三 开发环境搭建 1. 前端工程地址 2. 配置开发环境 (1)安装 node.js (2)安装 serve 服务器 3. 运行 四 最后 一 说明 应公司项目要求,需要对draw.io进行二次开发&…

python练习题(编程)

目录 7-1 输入列表,求列表元素和(eval输入应用) 输入格式: 输出格式: 输入样例: 输出样例: 7-3 求矩阵鞍点的个数 7-5 求圆面积 输入格式: 输出格式: 输入样例: 输出样例: 7-6 字典合并与排序 输入格式: 输出格式: 输入样例1: 输出样例1:…

Redis:分布式系统

文章目录 分布式单机架构应用数据分离架构应用服务集群架构 负载均衡读写分离冷热分离架构垂直分库微服务架构 分布式 下面就要简单对于分布式进行一个认识了 单机架构 在进行了解分布式之前,先了解一下什么是单机架构 如上所示就是一个单机架构,对于…

【JavaEE 初阶(六)】网络编程

❣博主主页: 33的博客❣ ▶️文章专栏分类:JavaEE◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你了解更多网络知识 目录 1.前言2.浅谈网络2.1基本知识2.2.OSI与TCP/IP 3.网络编程3.1TCP与UDP区别3.2UDP网路编程…

18 【Aseprite 作图】描边 换颜色 蒙版

1 描边的方式:选择“编辑 - 特效 - 轮廓” 就可以一键描边了 2 替换颜色 通过“编辑 - 替换颜色”,就把颜色从黄色 替换成了 紫色 3 调整色相,通过“编辑 - 调整 - 色相/饱和度”,就可以类似PS调整色相饱和度 4 铅笔选择“锁…

vue+springboot用户注销功能

vue文件前端 <el-button type"warning" plain click"handleDeletion">注 销</el-button> // 注销 const handleDeletion (userName) > {ElMessageBox.confirm(注销该用户所有信息后无法恢复&#xff0c;您确认注销吗?, 注销确认, { type…

【eclipse】如何在IDE里创建一个Java Web项目?

如何在eclipse中创建一个动态Web项目并成功运行&#xff1f; 一、 最终效果 懒得写那么多了…我也不知道该怎么写了&#xff0c;有点乱&#xff0c;有问题可以在评论里留言&#xff0c;我看到会解决的&#xff0c;在这个过程中也踩到了一些坑&#xff0c;但好在有CSDN帮助解决…

【VTKExamples::Rendering】第十一期 TestStringToImageDemo

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 公众号:VTK忠粉 前言 本文分享TestStringToImageDemo,该样例用于将字符转化为Image,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^…

YOLOv8独家改进:backbone改进 | 微软新作StarNet:超强轻量级Backbone | CVPR 2024

💡💡💡创新点:star operation(元素乘法)在无需加宽网络下,将输入映射到高维非线性特征空间的能力,这就是StarNet的核心创新,在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟 💡💡💡如何跟YOLOv8结合:替代YOLOv8的backbone 收录 YOLOv8…

Qt---文件系统

一、基本文件操作 1. QFile对文件进行读和写 QFile file( path 文件路径) 读&#xff1a; file.open(打开方式) QlODevice::readOnly 全部读取->file.readAll()&#xff0c;按行读->file.readLine()&#xff0c;atend()->判断是否读到文件尾 …

贪心算法----最大数

今日题目&#xff1a;leetcode179------点击跳转题目 分析&#xff1a; 要把这些数组组成最大的数&#xff0c;首先我们把数字转化为字符串&#xff0c;根据自定义的排序规则把这些字符串字数排列&#xff0c;再用一个字符串接受这些字符串数字拼接成最大的字符串数字 排序规则…

UniGen:用于生成自动驾驶场景的初始智体状态和轨迹的统一建模

24年5月谷歌WayMo论文“UniGen: Unified Modeling of Initial Agent States and Trajectories for Generating Autonomous Driving Scenarios”。 本文介绍 UniGen&#xff0c;一种生成交通场景的新方法&#xff0c;用于通过仿真评估和改进自动驾驶软件。 其方法在一个统一的模…

探索大语言模型代理(Agent):研究背景、通用框架与未来展望

引言 近年来&#xff0c;随着人工智能技术的飞速发展&#xff0c;大语言模型&#xff08;Large Language Models, LLMs&#xff09;在智能代理&#xff08;Agent&#xff09;领域中的应用已成为研究的热点。这些代理不仅能够模拟人类的认知过程&#xff0c;还能在复杂的社会环…