CV论文--2024.3.4

1、Deep Networks Always Grok and Here is Why

中文标题:深度网络总是让人摸不着头脑,原因如下

简介:本文探讨了深度神经网络(DNN)中一种称为"延迟泛化"或"Grokking"的现象。在接近零的训练误差之后,DNN的泛化会在较长时间后才发生。先前的研究已经报道了在特定的控制环境下出现延迟泛化的情况,例如使用大范数参数初始化的DNN或在算法数据集上训练的transformers。本文证明了延迟泛化实际上更为普遍,并出现在许多实际环境中,例如在CIFAR10上训练的卷积神经网络(CNN)或在Imagenette上训练的Resnet。我们引入了延迟鲁棒性的新概念,即DNN在插值和/或泛化之后才能理解对抗性示例并变得鲁棒。我们基于DNN的输入输出映射的局部复杂度提出了延迟泛化和延迟鲁棒性的出现解释。我们的局部复杂度测量了"DNN输入空间中所谓的"线性区域"(也称为样条分区区域)的密度,并作为训练的有用进展测量。我们首次提供了证据表明,在分类问题中,线性区域在训练过程中会发生相变,之后它们会远离训练样本(使DNN在那里的映射更平滑),并朝着决策边界移动(使DNN在那里的映射不那么平滑)。Grokking发生在相变之后,因为DNN映射在训练点周围的线性化导致了输入空间的鲁棒分区的出现。更多详情请参阅网址:https://bit.ly/grok-adversarial

2、DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

中文标题:DistriFusion:高分辨率扩散模型的分布式并行推理

简介:扩散模型在生成高质量图像方面已经取得了巨大的成功。然而,由于计算成本的限制,使用扩散模型生成高分辨率图像仍然面临挑战,这导致交互式应用程序的响应延迟无法接受。为了解决这个问题,本文提出了DistriFusion方法,通过充分利用多个GPU之间的并行性。我们的方法将模型输入分成多个补丁,并将每个补丁分配给一个GPU进行处理。然而,简单地实现这样的算法会破坏补丁之间的相互作用并导致失真,而将这种相互作用纳入算法中则会增加大量的通信开销。为了克服这个困境,我们观察到相邻扩散步骤的输入具有很高的相似性,并提出了位移补丁并行性的概念。该方法通过重复使用前一时间步骤的预计算特征图作为当前步骤的上下文,利用扩散过程的顺序性。因此,我们的方法支持异步通信,并可以通过计算进行流水线处理。经过大量实验证明,我们的方法可以应用于最新的Stable Diffusion XL模型,而不会降低生成图像的质量。与使用单个NVIDIA A100 GPU的情况相比,在使用8个GPU时,我们实现了高达6.1倍的加速。我们已经在https://github.com/mit-han-lab/distrifuser上公开了我们的代码。

3、Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

中文标题:Panda-70M:与多个跨模态教师一起为 70M 视频添加字幕

简介:数据和注释的质量对下游模型的质量产生了限制。尽管存在大量的文本语料库和图像-文本对,但获取高质量的视频-文本数据却非常困难。首先,手动标注非常耗时,因为需要注释者观看整个视频。其次,视频具有时间维度,由多个场景和多个动作组成。为了构建一个具有高质量标题的视频数据集,我们提出了一种自动方法,利用多模态输入,如文本视频描述、字幕和单个视频帧。具体来说,我们从公开可用的HD-VILA-100M数据集中收集了380万个高分辨率视频。然后,我们将这些视频分成语义一致的片段,并使用多个跨模态的教师模型为每个视频获取标题。接下来,我们在一个小的子集上微调检索模型,手动选择每个视频的最佳标题,然后将该模型应用于整个数据集,以选择最佳标题作为注释。通过这种方式,我们获得了一个包含70M个视频与高质量文本标题配对的数据集,称为Panda-70M。我们展示了该数据集在三个下游任务上的价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。在所有任务中,基于我们提出的数据集进行训练的模型在大多数指标上显著优于其他模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/430583.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何在服务器上建立国外私有云存储

随着数字化时代的到来,数据备份和存储成为了我们生活与工作中不可或缺的一部分。私有云存储,以其灵活性、安全性和便捷性,受到了越来越多用户的青睐。特别是对于需要在国外服务器上建立私有云存储的用户来说,这一需求更加迫切。下…

信钰证券|飞行汽车概念走势活跃,金盾股份“20cm”涨停

飞翔汽车概念5日盘中走势活泼,到发稿,金盾股份“20cm”涨停,万丰奥威涨超6%,光洋股份涨逾5%,商络电子、星源卓镁涨近4%。 金盾股份强势涨停,公司近来在出资者互动渠道表示,公司和清华大学联合研…

基于深度学习的人员指纹身份识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 指纹图像预处理与特征提取 4.2 卷积神经网络架构 4.3 特征编码与匹配 4.4 损失函数与训练 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程…

一键抠图怎么把物品抠出来?一键完成!物品抠图不再是难事!

在我们的日常生活和工作中,抠图已经成为了一个常见的需求。无论是为了制作一张精美的海报,还是为了在一篇文章中突出展示某个物品,抠图都能帮助我们更好地实现目标。然而,对于许多人来说,使用专业的抠图软件如Photosho…

2024年5个高性价比2C4G云服务器推荐,2核4G服务器优惠价格表

租用2核4G服务器费用价格,2核4G云服务器多少钱一年?1个月费用多少?阿里云2核4G服务器30元3个月、轻量应用服务器2核4G4M带宽165元一年、企业用户2核4G5M带宽199元一年;腾讯云轻量2核4G服务器5M带宽165元一年、252元15个月、540元三…

5G智能制造食品工厂数字孪生可视化平台,推进食品行业数字化转型

5G智能制造食品工厂数字孪生可视化平台,推进食品行业数字化转型。随着科技的飞速发展,食品工业正迎来一场前所未有的数字化转型。在这场转型中,5G智能制造工厂数字孪生可视化平台发挥着至关重要的作用。它不仅提高了生产效率,降低…

深度学习算法的基本原理

深度学习是一种机器学习方法,其核心是通过构建深层神经网络来学习数据的表示和特征,以解决各种复杂的任务。以下是深度学习算法的基本原理,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎…

40个Python字符串实例

Python 字符串是 Python 编程语言中最常用的数据类型之一,它可以表示文本或一组字符。Python 中的字符串是不可变的序列,意味着一旦创建,其值就不能被修改。下面是一些关于 Python 字符串的介绍。 概述 创建字符串:可以使用单引…

MWC 2024丨美格智能CEO杜国彬出席中国联通创新成果发布会并发表主题演讲

2月26日,中国联通在MWC2024 巴塞罗那期间举办了以“算网为基,智领未来”为主题的创新成果发布会,集中展示最新的创新成果与最佳实践。 中国通信标准化协会理事长闻库、GSMA首席财务官Louise Easterbrook、中国联通副总经理梁宝俊、华为ICT销…

[C语言]——C语言常见概念(2)

目录 一.第⼀个C语言程序 二.main函数 三.print和库函数 1.print 2.库函数 四.关键字介绍 一.第⼀个C语言程序 #include <stdio.h> int main() {printf("hello C\n");return 0;//约定返回0&#xff0c;在c语言中&#xff0c;正常返回0&#xff0c;异常…

HI3516DV500 HI3516DRFCV500 HI3516DRBCV500 海思安防监控芯片 提供原厂开发包

总体介绍 Hi3516DV500是一颗面向视觉行业推出的高 清智能SoC。该芯片最高支持2路sensor输入&#xff0c;支持最高5M30fps的ISP图像处理能力&#xff0c;支持2F WDR、多级降噪、六轴防抖、多光谱融合等多种 传统图像增强和处理算法&#xff0c;支持通过AI算法对输 入图像进行实…

安装mysql this application requires visual studio 2019 x64报错

提示 this application requires visual studio 2019 x64 缺少依赖 安装依赖 选择对应版本 安装 依赖安装地址 成功进入安装界面

redis02 安装

官网下载 传送门https://redis.io/download/#redis-downloads 安装Redis mac m1安装 下载你需要版本的软件包放到指定的目录下进行解压 cd 到解压好的redis目录 运行下面的命令进行编译测试 sudo make test 中途可能会提示你安装make工具&#xff0c;按提示安装即可&…

生活干货知识:手机流量卡网速不佳的常见原因及解决办法

最近有很多的小伙伴后台留言给我&#xff0c;为什么有时候手机网路那么差呢&#xff1f;甚至连一个基本的网页都打不开&#xff0c;播放视频和电影更不用说了&#xff0c;这样严重影响了我们的使用体验&#xff0c;到底什么原因导致的呢&#xff1f;相信很多小伙伴至今仍然未清…

Processing一些基础程序

一、学会绘制窗口 (1)首先我们需要学会绘制一个窗口&#xff0c;size()函数有两个参数&#xff1a;第一个设定窗口的宽度&#xff0c;第二个设定窗口的高度&#xff0c;如果想要设置一个窗口为宽800像素&#xff0c;高为600像素的窗口&#xff0c;输入以下代码&#xff1a;size…

【QT】在窗口中添加按钮

在窗口中添加按钮 创建一个QT程序&#xff0c;首先要做什么&#xff1f; 先创建一个应用程序类创建一个窗口类 在窗口中添加按钮 添加头文件&#xff1a;#include 没有设置按钮标题的函数&#xff0c;是因为它继承了父类&#xff0c;设置标题的函数在父类中。 因为好多子类…

谈谈鸿蒙的跨端技术方案

这两年要说技术上最火的关键字&#xff0c;我想肯定离不开“鸿蒙”两个字。 不管是技术社区还是身边的开发者多多少少都在关注鸿蒙的发展趋势&#xff0c;特别是HarmonyOS NEXT版本将进入独立生态体系&#xff0c;不再兼容安卓应用&#xff0c;在开发者和各个企业间激起了不小…

【数据库】SQLite的基本指令、数据约束、联结表、触发器及索引的使用技巧

目录 一、SQLite 语句基础 1、创建表&#xff1a;create 语句 2、创建表&#xff1a;create 语句 (设置主键&#xff09; ​编辑 3、查看表 4、修改表&#xff1a;alter 5、删除表&#xff1a;drop table 语句 6、插入新行&#xff1a;insert into 语句--全部赋值 7、…

(二十一)从零开始搭建k8s集群——kubernates核心组件及功能介绍

前言 Kubernetes是一个可移植、可扩展、开源的平台&#xff0c;用于管理容器化的工作负载和服务&#xff0c;它促进了声明性配置和自动化。Kubernetes容器可以持续开发、集成和部署&#xff1a;可靠且频繁地构建和部署容器镜像&#xff0c;快速有效地回滚&#xff1b;开发与运…

基于Harris角点的室内三维全景图拼接算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1Harris角点检测原理 4.2 Harris响应函数 4.3 角点检测与筛选 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 dirs datasheet/;% 定义…