《HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting》

文章目录

    • 前置知识:
      • 一、正文:
      • 二、方法

前置知识:

\quad 1)SMPL(Skinned Multi-Person Linear)模型

\quad SMPL(Skinned Multi-Person Linear)模型是一种用于表示人体形状和姿势的三维模型。

\quad a. Skinned表示这个模型不仅仅是骨架点,其实有蒙皮的,其蒙皮通过3D mesh表示。3D mesh如下所示,指的是在立体空间里面用三个点表示一个面,可以视为是对真实几何的采样,其中采样的点越多,3D mesh就越密,建模的精确度就越高。
在这里插入图片描述

\quad b. Multi-person表示的是这个模型是可以表示不同的人的,是通用的。
\quad c. Linear表示人体的不同姿态或者不同身高,胖瘦(我们都称之为形状shape)是一个线性的过程,是可以控制和解释的。

\quad 在SMPL模型中,我们的目标是对于人体的形状(胖瘦高矮),和人体的动作姿态进行定义。

\quad 为了描述人体的动作,SMPL模型中定义了一个维度是 24 x 3 的姿态参数θ,去描述某个时刻人体的动作姿态。24指的是24个关节点,但是3并不是(x, y, z),而是该节点针对于其父节点的旋转角度的轴角式表达。

\quad 为了描述人体的形状,SMPL模型中定义了一个维度是 10 的形状参数β,每一个维度的值都可以解释为人体形状的某个指标,比如高矮,胖瘦等。

\quad 2)线性混合蒙皮(Linear Blend Skinning)

\quad 线性混合蒙皮(Linear Blend Skinning),也称为蒙皮权重插值,用于模拟三维模型的形变(skinning)和骨骼动画。蒙皮是指如何将模型的表面与其骨骼结构关联起来,以便在动画中实现形变。

\quad SMPL模型使用线性混合蒙皮作为其形变模型的基础。SMPL使用线性混合蒙皮来模拟人体的肌肉和骨骼的运动。

一、正文:

\quad 为了引入人体结构先验,最近的文本驱动 3D 人体生成研究将 SDS 与 SMPL 等模型结合起来。具体来说,一个常见的做法是将人体先验集成到网格(mesh)和神经辐射场(NeRF)等表示中,或者通过将身体形状作为网格 / 神经辐射场密度初始化,或者通过学习基于线性混合蒙皮(Linear Blend Skinning)的形变场。然而,它们大多在效率和质量之间进行权衡:基于 mesh 的方法很难对配饰和褶皱等精细拓扑进行建模;而基于 NeRF 的方法渲染高分辨率结果对时间和显存的开销非常大。如何高效地实现细粒度生成仍然是一个未解决的问题。

\quad 最近,3D Gaussian Splatting(3DGS)的显式神经表达为实时场景重建提供了新的视角。它支持多粒度、多尺度建模,对 3D 人体生成任务非常适用。然而,想要使用这种高效的表达仍有两个挑战:
\quad 1)3DGS 通过在每个视锥体中排序和 alpha - 混合各向异性的高斯来表征基于图块的光栅化,这仅会反向传播很少一部分的高置信度高斯。然而,正如 3D 表面 / 体积渲染的研究所证实的那样,稀疏的梯度可能会阻碍几何和外观的网络优化。因此,3DGS 需要结构引导,特别是对于需要层次化建模和可控生成的人体领域。
\quad 2)朴素的 SDS 需要一个large scale的无分类器指导(Classifier-Free Guidance)来进行图像文本对齐,例如,在 DreamFusion 中使用的 100。但它会因过度饱和而牺牲视觉质量,使真实的人类生成变得困难。此外,由于 SDS 损失的随机性,3DGS 中原始的gradient-based density control 会变得不稳定,导致模糊的结果和floating artifacts。

\quad 因此,我们提出了有效且快速的 3D 人体生成模型 HumanGaussian,通过引入显式的人体结构引导与梯度规范化来辅助 3D 高斯的优化过程,能够生成多样且逼真的高质量 3D 人体模型。我们的直觉在于,3DGS是一种具有周期性高斯收缩或增长的有效渲染器,这种自适应密度控制可以自然地由内在的人体结构引导。本文的关键在于,结合显式的结构指导和梯度正则化,以促进高斯优化。

\quad 具体地,我们首先提出了一个 Structure-Aware SDS 联合学习人体外观和几何。不想先前的工作《Text-to-3d using gaussian splatting》、《3d gaussian splatting for real-time radiance field rendering》、《Gaussian dreamer: Fast generation from text to 3d gaussian splatting with point cloud priors》那样利用一般的先验,比如SfM和Point-E模型,我们将高斯初始化在SMPL-X mesh上。这样,后续的densification和pruning过程就会关注人体表面周围的区域,可以有效地捕捉几何变换,比如accessories和wrinkles。
此外,我们扩展了SD,使同时降噪RGB和Depth。这种双分支设计提取了两个空间对齐目标(即RGB和深度)的联合分布,在结构引导和纹理真实性下提高了高斯收敛性。

\quad 为了进一步改善自然外观的渲染,我们还设计了一个Annealed Negative Prompt Guidance。特别地,我们将SDS解耦为a noisier generative score和a cleaner classifier score,后者配备了一个decreasing negative prompt guidance来促进在正常CFG尺度(7.5)时的真是生成,这一点已经在当前的 text-to-3d 研究中被证实《Noise-free score distillation》《Text-to-3d with classifier score distillation》。通过这种方式,我们设法避免过饱和模式通过使用适当的CFG尺度,从而很好地平衡样本质量和多样性。此外,由于SDS损失的高方差,直接依靠梯度信息来控制密度,会导致模糊的几何。相反,我们建议在 prune-only 阶段消除基于高斯大小的浮动伪影。

二、方法

2.1. Preliminaries
\quad SMPL-X模型:是一个三维参数的人体模型,定义了身体,手,和脸的形状拓扑。它包含10475个顶点,和54个关键点。它可以被如下公式定义:
在这里插入图片描述
\quad T ˉ \bar{T} Tˉ是平均模板形状。Bs, Bp, Be分别是shape,pose,expression的blend shape functions。T(β,θ,φ)表示来自 T ˉ \bar{T} Tˉ的非刚性变形。LBS(·)是linear blend skinning函数,将T(β,θ,φ)转换为目标姿态θ,骨骼关节点 J(β),以及在每个顶点上定义的混合权值W。

\quad 方法的总览如下图所示。比较直观地看出来,先用SMPL-L网格初始化3DG,然后用dual-branch SDS对其进行优化,最后进行Prunning。
在这里插入图片描述
2.2 Structure-Aware SDS
\quad 这一部分的优化目标如下所示:
在这里插入图片描述
在这里插入图片描述

2.3. Annealed Negative Prompt Guidance
\quad 首先将SDS解耦为两项,前一项是将图像推向更真实的流形的生成分数,后一项是将样本与隐式分类器对齐的分类器分数。
在这里插入图片描述
\quad 在文生图和文生 3D 领域中,负文本被广泛用于避免生成不需要的属性。根据经验,研究者发现负文本分类器分数会在小时间步长内损害质量,因此使用退火的负文本引导来结合两个分数进行监督:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/241971.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

随机变量的定义

试验E的样本空间为S,样本空间S中的元素记为e,即样本点是e,样本空间记成,表示元素组成的集合。 随机变量的定义:设随机变量的样本空间为,是定义在样本空间S上的实值单值函数,称为随机变量。 随机…

vue3+element-plus, 设置table表格滚动到最底部

当table设置heigh属性时, 希望表格添加行数时,能显示最后底部数据(即表格滚动条,滚动到最底部)解决方法 const tableListRef ref();let table tableListRef.value.layout.table.refs; // 获取表格滚动元素 let tab…

Java基础语法之继承

为什么要继承 会发现,狗和猫只有叫声不同,因为它们都是动物,会有相同的属性和行为,所以它们可以继承animla类 如何继承 用到extends关键字 这样就会简化好多 注意 1.Animal称为父类/超类/基类;dog,cat称…

《快乐阅读》期刊论文发表投稿

《快乐阅读》期刊是经中华人民共和国新闻出版总署审核通过的,由河南文艺出版社有限公司主办、中原大地传媒股份有限公司主管的,面向国内外公开发行的省级优秀学术刊物。 收稿栏目:清唱、微课堂、教学实践、专栏、师与道、教与学、经验交流、…

电机驱动开发

最近在搞电机驱动程序,感觉很简单,实际操作却发现里面还有很多猫腻(细节)。 电机在嵌入式设备中非常常见,例如云台的转动,都是靠电机来驱动的。 电机常见分步进电机、直流电机,相对来说步进电机…

【后端学前端】第一天 css动画 内凹导航栏

1、学习信息 css动画 内凹导航栏_哔哩哔哩_bilibili 随便找的的视频&#xff0c;主要原因是在公司不方便有声音 2、源码 最终源码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title…

Re59:读论文 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文名称&#xff1a;Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 模型开源地址&#xff1a;https://huggingface.co/facebook/rag-token-nq ArXiv下载地址&#xff1a;https://arxi…

【INTEL(ALTERA)】Agilex7 FPGA Development Kit DK-DK-DEV-AGI027RBES 编程/烧录/烧写/下载步骤

DK-DEV-AGI027RBES 的编程步骤&#xff1a; 将 USB 电缆插入 USB 端口 J8&#xff08;使用 J10 时&#xff0c;DIPSWITCH SW5.3&#xff08;DK-DEV-AGI027RES 和 DK-DEV-AGI027R1BES&#xff09;和 SW8.3&#xff08;DK-DEV-AGI027RB 和 DK-DEV-AGI027-RA&#xff09;应关闭&a…

37.分支结构嵌套

目录 一.什么是分支结构嵌套 二.什么情况下会用分支结构嵌套 三.举例 四.注意事项 五.视频教程 一.什么是分支结构嵌套 在一个if语句中又包含了另外一个if语句&#xff0c;这种情况称之为if语句的嵌套&#xff0c;也叫做分支结构嵌套。 二.什么情况下会用分支结构嵌套 如…

计算机网络简答题

面向连接和非连接的服务特点 面向连接的服务&#xff1a;通信双方在进行通信之前&#xff0c;要事先建立一个完整的可以彼此沟通的通道&#xff0c;在通信过程中整个连接的情况可以被实时的监控和管理 面向非链接的服务&#xff1a;不需要预先建立一个联络两个通信节点的连接&a…

陵园殡仪馆网站建设的效果如何

陵园墓地的需求度众多周知非常高&#xff0c;无论墓地坑位咨询还是事项/环境展示、资料预览等都是常见事项&#xff0c;由于行业的特殊性&#xff0c;对正常客户来说&#xff0c;并不会知悉各个事项、价格、服务、流程等内容。 而对企业来说&#xff0c;也有获客、品牌扩张等需…

ViTDet论文笔记

arxiv&#xff1a;https://arxiv.org/abs/2203.16527 GitHub&#xff1a;https://github.com/ViTAE-Transformer/ViTDet 摘要 本文提出使用plain&#xff0c;non-hierarchical视觉transformer作为目标检测的主干网络。通过这种设计可以使得ViT结构模型不需要再重新设计一个分…

微信小程序自定义提示框组件并使用插槽 tooltip

创建tooltip组件引用 创建一个自定义组件&#xff0c;例如命名为 tooltip tooltip.wxml&#xff1a;用于定义组件的结构&#xff1b; <!--components/tooltip/tooltip.wxml--> <view class"tooltip-wrapper" hidden"{{hidden}}" style"lef…

美赛F奖经验分享,干货满满,快来查收!

2023年美赛结果出来之后&#xff0c;陆续有人给我发私信求经验&#xff0c;跟一些同学交流后我发现&#xff0c;很多人其实对美赛了解程度很少。我借此机会介绍一下美赛&#xff0c;并分享一下获奖经验。我的内容主要包括以下几个部分&#xff1a;美赛是什么、得奖分布、选题建…

【docker 】基于Dockerfile创建镜像

Dockerfile文档 Dockerfile文档地址 Dockerfile 是一个用来构建镜像的文本文件&#xff0c;文本内容包含了一条条构建镜像所需的指令和说明。 DockerFile 可以说是一种可以被 Docker 程序解释的脚本&#xff0c;DockerFile 是由一条条的命令组成的&#xff0c;每条命令对应 …

Day08 Liunx高级系统设计9-线程间同步与互斥

引入 经过昨天的学习 , 我们会使用线程 但是当多个线程同时操作同一个数据会导致数据安全问题 为了解决该问题 , 我们需要对其进行更加深入的学习 解决思路 保证多个线程不能同时操作同一个数据 同步与互斥的概念 互斥&#xff1a;同一时间&#xff0c;只能有一个任务&…

MacOS系统使用ESP8266(CP2102)开发板

开发板实物 连接开发板到macos 终端输入lsusb查看,开发板硬件成功识别 打开Arduino IDE并选择开发板 开发板连接成功 编译代码 上传成功 打开串口监视器,按一下RST键,可看到WIFI名输出及WIFI的IP输出 WIFI热点功能启用

双十二哪个牌子的电视盒子好用?测评员总结电视盒子品牌排行榜

每次电商大促我会分享好物推荐&#xff0c;本期我要盘点的数码产品是电视盒子&#xff0c;电视盒子的功能和重要性大家都懂&#xff0c;但电视盒子如何选就不太了解了&#xff0c;我根据今年20多次的测评结果整理了电视盒子品牌排行榜&#xff0c;看看哪个牌子的电视盒子好用吧…

智能优化算法应用:基于斑点鬣狗算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于斑点鬣狗算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于斑点鬣狗算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.斑点鬣狗算法4.实验参数设定5.算法结果6.…

Qt/C++视频监控安卓版/多通道显示视频画面/录像存储/视频播放安卓版/ffmpeg安卓

一、前言 随着监控行业的发展&#xff0c;越来越多的用户场景是需要在手机上查看监控&#xff0c;而之前主要的监控系统都是在PC端&#xff0c;毕竟PC端屏幕大&#xff0c;能够看到的画面多&#xff0c;解码性能也强劲。早期的手机估计性能弱鸡&#xff0c;而现在的手机性能不…