还记得DragGAN吗?可以拖动锚点进行图像编辑,当时代码发布以后大家发现生成速度慢,而且不能自己自定义外部图片就没人理了。
现在又有一个StableDrag,是基于Diffusion 模型的,也可以完成类似的拖动锚点编辑图片的能力。如果真的跟演示的效果一样的话,那图片编辑就太方便了。
项目地址
StableDrag PageDESCRIPTION META TAGhttps://stabledrag.github.io/?continueFlag=a8271dbf06824996af67bdf97e6ab531
论文阅读
摘要
自DragGAN出现以来,基于点的图像编辑引起了人们的广泛关注。最近,DragDiffusion通过将这种拖动技术应用于扩散模型,进一步提高了生成质量。尽管取得了巨大的成功,但这种拖动方案存在两个主要缺陷,即不准确的点跟踪和不完整的运动监督,这可能会导致不理想的拖动结果。为了解决这些问题,我们设计了一种区分点跟踪方法和一种基于置信度的运动监督潜在增强策略,构建了一个稳定和精确的基于拖动的编辑框架,称为StableDrag。前者可以让我们精确地定位更新的处理点,从而提高远程操作的稳定性,而后者负责确保在所有操作步骤中尽可能高质量地优化潜在。由于这些独特的设计,我们实例化了两种类型的图像编辑模型,包括StableDrag-GAN和StableDrag-Diff,通过在DragBench上进行广泛的定性实验和定量评估,获得了更稳定的拖动性能。
方法
如图所示,中间单步优化的拖拽方案示意图。所示的拖拽管道的核心是基于GAN的,而基于扩散模型的管道仍然是相同的。
实验
感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~