CV论文--2024.2.28

source:CV论文--2024.2.28

1、StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

中文标题:StreamDiffusion: 一个用于实时交互生成的管道级解决方案

简介:我们介绍了StreamDiffusion,这是专为实时交互式图像生成而设计的实时扩散管道。传统的扩散模型擅长从文本或图像提示中生成图像,但在实时交互方面表现不佳。特别是在需要连续输入的场景下,如Metaverse、实时视频流和广播,高吞吐量至关重要。为了解决这一问题,我们提出了一种新方法,将原始的顺序去噪转变为批处理去噪过程。通过引入Stream Batch,我们消除了传统的等待和交互方法,实现了流畅高吞吐量的处理。为了处理数据输入和模型吞吐量之间的频率差异,我们设计了一种新的输入输出队列,用于并行化流媒体过程。此外,我们提出了一种新的残差无分类器引导(RCFG)算法,减少了负条件去噪步骤的数量,从而减少了冗余计算。我们还引入了随机相似性过滤器(SSF)来优化功耗。我们的Stream Batch 在不同去噪级别下比顺序去噪方法实现了约1.5倍的加速,而RCFG 比传统的CFG 快2.05倍。结合现有的成熟加速工具,我们可以在一个RTX4090上实现高达91.07fps 的图像生成,将Diffusers开发的AutoPipline 的吞吐量提高了59.56倍。此外,StreamDiffusion 还显著降低了能耗,在一个RTX3060上降低了2.39倍,在一个RTX4090上降低了1.99倍。

原文地址:https://arxiv.org/abs/2312.12491v1

2、Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

中文标题:Vision Mamba: 用双向状态空间模型实现高效的视觉表示学习

简介:最近,一种名为Mamba的状态空间模型(SSMs)结合了高效的硬件感知设计,展示出在长序列建模方面的巨大潜力。构建高效且通用的视觉主干仅基于SSMs是一个令人感兴趣的方向。然而,由于视觉数据对位置的敏感性以及对全局上下文的需求,对于SSMs来说,表示视觉数据具有挑战性。本文提出了一个新的通用视觉主干,名为双向Mamba块(Vim),它使用位置嵌入标记图像序列,并利用双向状态空间模型来压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中,Vim相较于成熟的视觉转换器如DeiT,展现出更高的性能,并且在计算和内存效率上也有显著改进。例如,在执行分辨率为1248×1248的图像的批量推理以提取特征时,Vim比DeiT快2.8倍,并且节省了86.8%的GPU内存。这些结果表明,Vim能够克服计算和内存上的限制,实现对高分辨率图像的Transformer-style理解,并具有成为下一代视觉主干模型的潜力。您可以在https://github.com/hustvl/Vim 获取代码。

原文地址:https://arxiv.org/abs/2401.09417v1

3、MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

中文标题:MagicVideo-V2: 多阶段高审美视频生成

简介:高保真视频生成的需求正在不断增长,这推动了该领域的研究取得重要进展。我们介绍了MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块融合到端到端视频生成流程中。得益于这些架构设计的优势,MagicVideo-V2能够生成外观优美、高分辨率、高保真度和平滑度的视频。经过大规模用户评估,它展现出比Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion等其他文本到视频系统更出色的性能。

原文地址:https://arxiv.org/abs/2401.04468v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/414219.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RK3568平台 RTC时间框架

一.RTC时间框架概述 RTC(Real Time Clock)是一种用于计时的模块,可以是再soc内部,也可以是外部模块。对于soc内部的RTC,只需要读取寄存器即可,对于外部模块的RTC,一般需要使用到I2C接口进行读取…

prometheus+grafana监控nginx的简单实现

1.编译安装NGINX 加入编译安装nginx-module-vts模块,目的是为了获取更多的监控数据(虚拟主机,upstream等) nginx下载 http://nginx.org/download/nginx-1.20.2.tar.gz nginx-module-vts下载 https://github.com/vozlt/nginx-module-vts/archive/refs/tags/v0.2…

自然语言处理: 第十三章Xinference部署

项目地址: Xorbitsai/inference 理论基础 正如同Xorbits Inference(Xinference)官网介绍是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通…

在PyCharm中使用Git

安装Git CMD检查Git版本 打开cmd,输入git version,检查当前下载版本 配置git的user信息 在cmd中输入 git config --global user.name "用户名"git config --global user.email "用户邮箱"输入:git config --list&…

Linux下性能分析的可视化图表工具

1 sar 和sadf 1.1 简介 sar命令可以记录系统下的常见活动信息,例如CPU使用率、网络统计数据、Block I/O数据、内存使用情况 等。 sar命令的“-o [file_name]”参数可以将系统活动数据记录到file_name文件,然后通过sadf来解析,sadf命令的“-g…

音频混音算法的实现

最近项目有用到混音算法&#xff0c;这里用比较常见的一种&#xff0c;就是简单的加和之后做一下归一化。 是参考这个博主实现的&#xff1a; 音频混音的算法实现 下面直接贴代码&#xff1a; #include <stdio.h> #include <stdlib.h> #include <math.h&…

【王道数据结构】【chapter7查找】【P285t5】

线性表中各节点的检索概率不等时&#xff0c;可用如下策略提高顺序检索的效率&#xff1b;若找到指定的结点&#xff0c;则将该结点和其前驱结点&#xff08;若存在&#xff09;交换&#xff0c;使得经常被访问的结点尽量位于表的前端。试设计在顺序结构和链式结构的线性表盘上…

计算机网络:深入探索HTTP

引言&#xff1a; HTTP&#xff0c;全称超文本传输协议&#xff08;Hypertext Transfer Protocol&#xff09;&#xff0c;是互联网上数据通信的基础。它定义了客户端&#xff08;如浏览器&#xff09;和服务器之间如何交互和传输数据。HTTP最初是为了支持Web浏览而设计的&…

Flink动态分区裁剪

1 原理 1.1 静态分区裁剪与动态分区裁剪 静态分区裁剪的原理跟谓词下推是一致的&#xff0c;只是适用的是分区表&#xff0c;通过将where条件中的分区条件下推到数据源达到减少分区扫描的目的   动态分区裁剪应用于Join场景&#xff0c;这种场景下&#xff0c;分区条件在joi…

南京师范大学计电院数据结构课设——排序算法

1 排序算法 1.1 题目要求 编程实现希尔、快速、堆排序、归并排序算法。要求首先随机产生10000个数据存入磁盘文件&#xff0c;然后读入数据文件&#xff0c;分别采用不同的排序方法进行排序并将结果存入文件中。 1.2 算法思想描述 1.2.1 随机数生成 当需要生成一系列随机数…

C#理论 —— WPF 应用程序Console 控制台应用

文章目录 1. WPF 应用程序1.1 工程创建1.2 控件1.2.1 控件的公共属性1.2.1 TextBox 文本框1.2.1 Button 按钮 *. Console 控制台应用1.1 工程创建 1. WPF 应用程序 1.1 工程创建 Visual Studio 中新建项目 - 选择WPF 应用程序&#xff1b; 1.2 控件 1.2.1 控件的公共属性 …

RunnerGo UI自动化测试脚本如何配置

RunnerGo提供从API管理到API性能再到可视化的API自动化、UI自动化测试功能模块&#xff0c;覆盖了整个产品测试周期。 RunnerGo UI自动化基于Selenium浏览器自动化方案构建&#xff0c;内嵌高度可复用的测试脚本&#xff0c;测试团队无需复杂的代码编写即可开展低代码的自动化…

Ubuntu Mysql Innodb cluster集群搭建+MaxScale负载均衡(读写分离)

Ubuntu系统版本 20.04.3 LTS (Focal Fossa) 、64位系统。 cat /etc/os-release查看Ubuntu系统是32位还是64位 uname -m如果显示“i686”,则表示安装了32位操作系统。如果显示“x86_64”,则表示安装了64位操作系统。 一、安装MySql 参考: https://blog.csdn.net/qq_3712…

高级语言期末2010级B卷

1.编写程序根据如下公式计算X的值&#xff08;精确到1e-5&#xff09;。 #include <stdio.h>int main(){int i1;double flag1.0/(2*i-1)*2.0*i/(2*i-1);double sum0;while(flag>1e-5){sumflag;i;flag1.0/(2*i-1)*2.0*i/(2*i-1);}printf("%lf",sum);return 0…

【kubernetes】关于k8s集群的资源发布方式(灰度/滚动发布)

目录 一、常见的发布方式 二、详解kubectl陈述式方式做灰度发布&#xff08;金丝雀发布&#xff09; 步骤一&#xff1a;先基于deployment控制器创建pod&#xff0c;然后发布 步骤二&#xff1a;基于命令行灰度发布 步骤三&#xff1a;测试等到版本稳定以后&#xff0c;再完…

自动驾驶消息传输机制-LCM

需要用到LCM消息通讯&#xff0c;遂研究下。 这里写目录标题 1 LCM简介2. LCM源码分析3 LCM C教程与实例3.1 安装配置及介绍3.2 创建类型定义3.3 初始化LCM3.4 发布publish一个消息3.5 订阅和接收一个消息3.6 LCM进程间通讯3.7 注意事项&#xff1f;3.7.1 当数据结构定义的是数…

unity学习(41)——创建(create)角色脚本(panel)——UserHandler(收)+CreateClick(发)——创建发包!

1.客户端的程序结构被我精简过&#xff0c;现在去MessageManager.cs中增加一个UserHandler函数&#xff0c;根据收到的包做对应的GameInfo赋值。 2.在Model文件夹下新增一个协议文件UserProtocol&#xff0c;内容很简单。 using System;public class UserProtocol {public co…

2024牛客寒假算法基础集训营1(补题)

文章目录 ABCDEFGHIJKL A n的范围很小暴力直接 O ( n 3 ) O(n^3) O(n3)直接做就行。 我还傻的统计了一下前后缀&#xff0c;不过怎么写都行这道题。 #include <bits/stdc.h> #define int long long #define rep(i,a,b) for(int i (a); i < (b); i) #define fep(i,…

图片生成 Stable Diffusion Web 安装教程

一 Stable Diffusion Web介绍 1 什么是stable diffussion web &#xff1f; Stable Diffusion Web 是一个基于 Stable Diffusion 模型开发的图形用户界面&#xff08;GUI&#xff09;应用程序&#xff0c;它允许用户通过简单的网页交互方式来利用人工智能技术进行艺术创作和图像…

2024数字中国创新大赛·数据要素赛道“能源大数据应用赛”正式上线!参赛指南请查收

近日&#xff0c;由国网福建电力承办的2024数字中国创新大赛能源大数据应用赛正式上线发布。赛事按照数字中国建设、能源革命的战略要求&#xff0c;围绕能源数据要素x、能源数字技术、能源商业模式等热点设置赛题&#xff0c;诚邀社会各界为加快建成新型电力系统出谋划策&…