source:CV论文--2024.2.28
1、StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation
中文标题:StreamDiffusion: 一个用于实时交互生成的管道级解决方案
简介:我们介绍了StreamDiffusion,这是专为实时交互式图像生成而设计的实时扩散管道。传统的扩散模型擅长从文本或图像提示中生成图像,但在实时交互方面表现不佳。特别是在需要连续输入的场景下,如Metaverse、实时视频流和广播,高吞吐量至关重要。为了解决这一问题,我们提出了一种新方法,将原始的顺序去噪转变为批处理去噪过程。通过引入Stream Batch,我们消除了传统的等待和交互方法,实现了流畅高吞吐量的处理。为了处理数据输入和模型吞吐量之间的频率差异,我们设计了一种新的输入输出队列,用于并行化流媒体过程。此外,我们提出了一种新的残差无分类器引导(RCFG)算法,减少了负条件去噪步骤的数量,从而减少了冗余计算。我们还引入了随机相似性过滤器(SSF)来优化功耗。我们的Stream Batch 在不同去噪级别下比顺序去噪方法实现了约1.5倍的加速,而RCFG 比传统的CFG 快2.05倍。结合现有的成熟加速工具,我们可以在一个RTX4090上实现高达91.07fps 的图像生成,将Diffusers开发的AutoPipline 的吞吐量提高了59.56倍。此外,StreamDiffusion 还显著降低了能耗,在一个RTX3060上降低了2.39倍,在一个RTX4090上降低了1.99倍。
原文地址:https://arxiv.org/abs/2312.12491v1
2、Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
中文标题:Vision Mamba: 用双向状态空间模型实现高效的视觉表示学习
简介:最近,一种名为Mamba的状态空间模型(SSMs)结合了高效的硬件感知设计,展示出在长序列建模方面的巨大潜力。构建高效且通用的视觉主干仅基于SSMs是一个令人感兴趣的方向。然而,由于视觉数据对位置的敏感性以及对全局上下文的需求,对于SSMs来说,表示视觉数据具有挑战性。本文提出了一个新的通用视觉主干,名为双向Mamba块(Vim),它使用位置嵌入标记图像序列,并利用双向状态空间模型来压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中,Vim相较于成熟的视觉转换器如DeiT,展现出更高的性能,并且在计算和内存效率上也有显著改进。例如,在执行分辨率为1248×1248的图像的批量推理以提取特征时,Vim比DeiT快2.8倍,并且节省了86.8%的GPU内存。这些结果表明,Vim能够克服计算和内存上的限制,实现对高分辨率图像的Transformer-style理解,并具有成为下一代视觉主干模型的潜力。您可以在https://github.com/hustvl/Vim 获取代码。
原文地址:https://arxiv.org/abs/2401.09417v1
3、MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
中文标题:MagicVideo-V2: 多阶段高审美视频生成
简介:高保真视频生成的需求正在不断增长,这推动了该领域的研究取得重要进展。我们介绍了MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块融合到端到端视频生成流程中。得益于这些架构设计的优势,MagicVideo-V2能够生成外观优美、高分辨率、高保真度和平滑度的视频。经过大规模用户评估,它展现出比Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion等其他文本到视频系统更出色的性能。
原文地址:https://arxiv.org/abs/2401.04468v1