3D 生成重建013-ProlificDreamer将SDS拓展到VSD算法进行高质量的3D生成

3D 生成重建013-ProlificDreamer将SDS拓展到VSD算法进行高质量的3D生成


文章目录

    • 0论文工作
    • 1论文方法
    • 2效果

0论文工作

**分数蒸馏采样(SDS)**通过提取预先训练好的大规模文本到图像扩散模型,在文本到3d生成方面显示出了巨大的前景,但存在过饱和、过平滑的问题g和低多样性问题。在这项工作中,作者提出将三维参数建模为一个随机变量,而不是像SDS中那样的一个常数,并提出了变分分数蒸馏(VSD),一个有原则的pa基于粒子的变分框架来解释和解决上述文本到3d生成中的问题。作者表明,SDS是VSD的一种特殊情况,会导致采样结果较差且CFG系数很大,这和过饱和关联密切。相比之下,VSD对不同的CFG权重作为扩散模型的祖先采样效果很好,同时使用共同的CFG权重提高了多样性和样本质量。
论文经典的套路,证明某个解法是我们算法的一个特例,我们提出的算法是更一般的更泛化的方案。不过这个论文的效果和对理论的扩展确实很独到的视角和很深刻的理论拓展。几乎是这两年看到对sds解释最全面的三篇文章了,Dreamfusion和SJC。更加详细的解释可以在作者论文中找到更详细的公式介绍。这是一个提升优化方法生成质量的一个答案,当然还有很多不同的角度去理解并缓解其中存在的问题。当我们从不同视角去看一个问题,得到的结论不同,也会有不统计解决思路。

ProlificDreamer
参考知乎

1论文方法

我们首先从2d图像生成理解这个问题,文本生成图像的时候,要在多样性和生成质量之间有一个权衡,这个开关用CFG系数来控制。CFG在2d的时候一般是10以内。这个系数越小我们对文本的依赖小生成结果会越多。越大的话就是生成结果越确定。通常要有一个权衡。
现在回到3d问题,那么每个视图怎么和原来文本保持尽可能的一致,就需要一个很大的CFG系数。这也是dreamfusion 过饱和比较严重的一个原因。cfg确实能支持整体风格的一致,但是在差不多1000次的优化步骤中,还是无法保证每次的生成结果朝着完全一致的方法,这就导致最终结果是在很多个优化方向中找一个中间状态,即缺乏细节,因为细节在平均过程中被相互抵消了。
接下来看一看ProlificDreamer作者的分析
∇ θ L SDS ( ϕ , x ) = g ( θ ) ≜ E t , ϵ [ w ( t ) ( ϵ ^ ϕ ( Z t ; y , t ) − ϵ ) ∂ x ∂ θ ] \nabla_{\theta} \mathcal{L}_{\text{SDS}}(\phi, x) = g(\theta) \triangleq \mathbb{E}_{t,\epsilon} \left[ w(t) \left( \hat{\epsilon}_\phi(Z_t; y, t) - \epsilon \right) \frac{\partial x}{\partial \theta} \right] θLSDS(ϕ,x)=g(θ)Et,ϵ[w(t)(ϵ^ϕ(Zt;y,t)ϵ)θx]
对于一个用 θ \theta θ进行参数化的3D表示,给定文本 y ,通过对随机采样的视角下渲染的2D图像,优化SDS loss,就能让3D越来越逼真。
SDS 的更新方向有两个来源。首先,预训练的图像扩散模型引导渲染出的二维图像趋向真实。具体来说,扩散模型预测噪声大小,经线性变换后得到分布的 score,即似然函数的梯度(这部分与 SJC 从得分函数角度解释 DreamFusion 中 SDS 的方式一致)。此过程旨在最大化渲染图像的likelihood。而这种持续增大似然函数的行为,也称为“mode seeking”,本质上是在寻找似然函数的峰值。
SDS 的目标是在概率密度函数中寻找具有高似然度的模式。然而,在生成模型中,高似然度并不总是等同于高质量的生成结果。以高维高斯分布为例。高维高斯分布的典型样本和似然度最高的样本存在显著差异。对于一个 d d d 维的高斯分布 N ( 0 , I d ) N(0, I_d) N(0,Id),大部分概率密度集中在距离原点半径为 d \sqrt{d} d 的球面上,其样本类似于“雪花噪声”。然而,高维高斯分布的似然函数在原点 (全零向量) 处达到最大值,对应的样本是一张纯色图像,这显然不符合我们对高斯噪声样本的预期。高维高斯分布的典型样本与似然最大的样本很不一样。我们希望采到灰色圆环上的typical sample。
在这里插入图片描述
如下图所示,SDS的优化过程会让样本都偏离“典型样本”。并且由于不同的起始点可能都会收敛到同一个mode,所以还会导致多样性比较差。SDS的优化过程会让样本都偏离“典型样本”,并且还会导致多样性比较差。
在这里插入图片描述
为了解决上面提到的SDS的问题,VDS对SDS进行了一些小改动。我们同时优化多个样本,我们把样本们视为一个变分分布。如下图所示,把SDS更新方向的第二项由零均值的高斯换成了变分分布的Score。
在这里插入图片描述
额外的变分分布的score可以让样本收敛到图中灰色圆环上的典型样本,同时增大样本多样性。
在这里插入图片描述
这个变分分布在优化过程中会不断地变化,需要不断地更新对于变分分布score的建模。在这里作者用了LoRA,可以快速的学习变分分布。同时因为LoRA有一些先验知识,所以我们能够用很少量的样本就学到一个不错的score。
在这里插入图片描述

这个是论文结构图,用lora来学习变分分布。
在这里插入图片描述

2效果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/641731.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

软考-程序员 知识点与部分真题梳理

软考-程序员 知识点与部分真题梳理 参照《程序员教程》第五版划分类别; 持续更新中… 计算机系统基础知识 如何理解和处理浮点数的加减法运算 在计算机科学中,处理浮点数的表示和运算是基础且关键的,尤其是在进行科学计算、图形处理和数据分…

Autodesk 3DS Max v2025 解锁版安装教程 (3D 建模软件)

前言 Autodesk 3ds Max 是一款功能强大的 3D 建模和动画解决方案,游戏开发人员、视觉效果艺术家和平面设计师使用它来创建庞大的世界、令人惊叹的场景和引人入胜的虚拟现实 (VR) 体验。 Autodesk 3DS MAX是业界使用最广泛的3D建模和动画软件程序之一,它…

泪目!网络连接中断的原因,终于找到了!

朋友们,出大事了! 不知道多少朋友玩过 DNF 这个游戏,这个我从小学玩到大学的 “破” 游戏,昨天竟然出手游了! 我都忘了自己曾几何时预约过这个手游通知,昨天给我发了条通知信息说游戏已开服。 老玩家直接…

59 多次 mmap 虚拟地址的关系

前言 这是来自于网友的一篇帖子 然后 我们这里来探究一下这个问题 主要是 多次连续的 mmap 获取到的 虚拟地址区域 是否连续 以及 衍生出的一些其他的问题 从 mmap 的实现 我们可以知道, mmap 的空间是 自顶向下 分配的, 因此 两块空间应该是连续的, 第一块在上面, 第二块…

solidworks画螺母学习笔记

螺母 单位mm 六边形 直径16mm,水平约束,内圆直径10mm 拉伸 选择两侧对称,厚度7mm 拉伸切除 画相切圆 切除深度7mm,反向切除 拔模角度45 镜像切除 倒角 直径1mm 异形孔向导 螺纹线 偏移打勾,距离为2mm…

开源的在线JSON数据可视化编辑器jsoncrack本地部署与远程访问

文章目录 1. 在Linux上使用Docker安装JSONCrack2. 安装Cpolar内网穿透工具3. 配置JSON Crack界面公网地址4. 远程访问 JSONCrack 界面5. 固定 JSONCrack公网地址 JSON Crack 是一款免费的开源数据可视化应用程序,能够将 JSON、YAML、XML、CSV 等数据格式可视化为交互…

Jmeter预习第1天

Jmeter参数化(重点) 本质:使用参数的方式来替代脚本中的固定为测试数据 实现方式: 定义变量(最基础) 文件定义的方式(所有测试数据都是固定的情况下[死数据],eg:注册登录&#xff0…

释放Mac潜能,选择Magic Disk Cleaner for Mac

想要让Mac运行更加流畅、性能更加出色吗?那就选择Magic Disk Cleaner for Mac吧! Magic Disk Cleaner for Mac v2.7.7激活版下载 这款软件是Mac用户的得力助手,它拥有强大的扫描和清理功能,能够迅速找出并删除硬盘上的无用文件和垃…

智慧校园的建设思路

智慧校园建设的一个主要目的就是要打破学校内的信息孤岛,其核心是在人、流程和信息三个层面的全面整合。智慧校园应该能够为全校师生员工及校外用户提供统一的、一站式的服务渠道;能够将学校各种业务流程连接起来,实现各种应用系统的互联互通…

MySQL 带游标的存储过程(实验报告)

一、实验名称: 带游标的存储过程 二、实验日期: 2024 年 5月 25 日 三、实验目的: 掌握MySQL带游标的存储过程的创建及调用; 四、实验用的仪器和材料: 硬件:PC电脑一台; 配置&#xff1…

初出茅庐的小李博客之用MQTT.fx软件进行消息发布与订阅【 基于EMQX Cloud】

MQTT.fx软件使用简单介绍 MQTT.fx 的软件界面如下图所示,最上方为 MQTT Broker 连接地址栏,及其连接配置。其下方功能 Tabs 含有 Publish 发布栏、Subscribe 订阅栏、Scripts 脚本栏、Broker Status 状态消息栏、Log 日志信息控制栏。 连接之前要明确几…

BeautifulSoup4通过lxml使用Xpath,以及获取(定位)元素和其文本或者属性

环境:win10,python3.8.10 首先需要安装:beautifulsoup4,lxml 使用命令: pip38 install beautifulsoup4 pip38 install lxml 安装完毕后查看一下: 写代码: from bs4 import BeautifulSoup …

el-transfer和el-tree进行结合搞一个树形穿梭框

由于业务需求需要在穿梭框里使用树形结构,但是本身element里并不支持,于是参考了别的大佬发的文章作为思路及后续自己新增了一些处理功能。 目录 1.拷贝代码放到自己的项目目录中 2.改造el-transfer的源码 3.修改tree-transfer-panel.vue文件 4.修改…

Excel透视表:快速计算数据分析指标的利器

文章目录 概述1.数据透视表基本操作1.1准备数据:1.2创建透视表:1.3设置透视表字段:1.4多级分类汇总和交叉汇总的差别1.5计算汇总数据:1.6透视表美化:1.7筛选和排序:1.8更新透视表: 2.数据透视-数…

Could not create connection to database server的错误原因

1、使用MyBatis 连接数据库报错 org.apache.ibatis.exceptions.PersistenceException: ### Error updating database. Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Could not create connection to database server. ### The error may …

Docker(四)容器相关操作及问题处理

目录 一、进入、退出容器操作 二、查看Docker 容器的配置文件 方法一:进入docker容器内进行查看 方法二:通过数据卷挂载方式查看配置文件 方法三:使用Docker可视化工具查看配置文件 三、容器与宿主机时间同步 方法一:创建启…

java抽象类,接口,枚举练习题

第一题: 答案: class Animal{//成员变量protected String name;protected int weight;//构造方法public Animal(){this.name"refer";this.weight50;}public Animal(String name,int weight){this.namename;this.weightweight;}//成员方法publ…

R可视化:可发表的Y轴截断图

Y轴截断图by ggprism Y轴截断图by ggprism 介绍 ggplot2绘制Y轴截断图by ggprism加载R包 knitr::opts_chunk$set(message = FALSE, warning = FALSE)library(tidyverse) library(ggprism) library(patchwork)rm(list = ls()) options(stringsAsFactors = F) options(future.…

回溯大法总结

前言 本篇博客将分两步来进行,首先谈谈我对回溯法的理解,然后通过若干道题来进行讲解,最后总结 对回溯法的理解 回溯法可以看做蛮力法的升级版,它在解决问题时的每一步都尝试所有可能的选项,最终找出所以可行的方案…

redis中String,Hash类型用法与场景使用

String 用法 1. 设置键值对 (1)设置键值对使用 set 命令设置 key 的值。 返回值:ok,如果 key 已经存在,set 命令会覆盖旧值。 (2)使用 setex 命令设置 key 的值并为其设置过期时间&#xff…