CV论文--2024.2.28

source:CV论文--2024.2.28

1、StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

中文标题：StreamDiffusion: 一个用于实时交互生成的管道级解决方案

简介：我们介绍了StreamDiffusion，这是专为实时交互式图像生成而设计的实时扩散管道。传统的扩散模型擅长从文本或图像提示中生成图像，但在实时交互方面表现不佳。特别是在需要连续输入的场景下，如Metaverse、实时视频流和广播，高吞吐量至关重要。为了解决这一问题，我们提出了一种新方法，将原始的顺序去噪转变为批处理去噪过程。通过引入Stream Batch，我们消除了传统的等待和交互方法，实现了流畅高吞吐量的处理。为了处理数据输入和模型吞吐量之间的频率差异，我们设计了一种新的输入输出队列，用于并行化流媒体过程。此外，我们提出了一种新的残差无分类器引导（RCFG）算法，减少了负条件去噪步骤的数量，从而减少了冗余计算。我们还引入了随机相似性过滤器（SSF）来优化功耗。我们的Stream Batch 在不同去噪级别下比顺序去噪方法实现了约1.5倍的加速，而RCFG 比传统的CFG 快2.05倍。结合现有的成熟加速工具，我们可以在一个RTX4090上实现高达91.07fps 的图像生成，将Diffusers开发的AutoPipline 的吞吐量提高了59.56倍。此外，StreamDiffusion 还显著降低了能耗，在一个RTX3060上降低了2.39倍，在一个RTX4090上降低了1.99倍。

原文地址：https://arxiv.org/abs/2312.12491v1

2、Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

中文标题：Vision Mamba: 用双向状态空间模型实现高效的视觉表示学习

简介：最近，一种名为Mamba的状态空间模型（SSMs）结合了高效的硬件感知设计，展示出在长序列建模方面的巨大潜力。构建高效且通用的视觉主干仅基于SSMs是一个令人感兴趣的方向。然而，由于视觉数据对位置的敏感性以及对全局上下文的需求，对于SSMs来说，表示视觉数据具有挑战性。本文提出了一个新的通用视觉主干，名为双向Mamba块（Vim），它使用位置嵌入标记图像序列，并利用双向状态空间模型来压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中，Vim相较于成熟的视觉转换器如DeiT，展现出更高的性能，并且在计算和内存效率上也有显著改进。例如，在执行分辨率为1248×1248的图像的批量推理以提取特征时，Vim比DeiT快2.8倍，并且节省了86.8％的GPU内存。这些结果表明，Vim能够克服计算和内存上的限制，实现对高分辨率图像的Transformer-style理解，并具有成为下一代视觉主干模型的潜力。您可以在https://github.com/hustvl/Vim 获取代码。

原文地址：https://arxiv.org/abs/2401.09417v1

3、MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

中文标题：MagicVideo-V2: 多阶段高审美视频生成

简介：高保真视频生成的需求正在不断增长，这推动了该领域的研究取得重要进展。我们介绍了MagicVideo-V2，它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块融合到端到端视频生成流程中。得益于这些架构设计的优势，MagicVideo-V2能够生成外观优美、高分辨率、高保真度和平滑度的视频。经过大规模用户评估，它展现出比Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion等其他文本到视频系统更出色的性能。

原文地址：https://arxiv.org/abs/2401.04468v1

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/414219.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！