文献阅读1

A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images

会议/期刊:CVPR 2023;阿里达摩院;Biwen Lei

概述:这是一篇单张图片三维人脸重建的论文,这篇论文的主要目标是在三维人脸重建时尽量还原细节信息。

image-20240110141033074

如上图所示,他们将人脸重建过程分为三个部分,分别用低频、中频、高频信号来区分。低频表示基本的形状,也就是用3dmm生成的部分;中频表示顶点尺度的几何变形,用deformation map (64*64*3)来记录;高频表示像素尺度的位移,也就是一个displacement map(normal map)(256*256),在渲染的时候根据像素进行高度的插值。

我觉得很神奇的一点是,他的中频信号尽管只用于每个顶点的变形,但他仍然是用贴图的方式来存储,实际上如果deformation map的分辨率大一些,是和displacement map有类似作用的。是否真的有必要强行拆分成两个部分呢?

下图展示了他们的方法流程图:

image-20240110142047067

左上角部分是用一个网络去预测BFM的参数和纹理贴图;左下角是根据输入和BFM生成的形状生成离线的训练数据(用于右下角的一些loss的计算);右下角则体现了论文“Hierarchical”的思路,分级地去分别预测两个贴图,里面的“pix2pix”是前人提出的网络;右上角则是在训练中可微渲染成图像之后去学习网络权重。

他们的方法在REALY benchmark以及一些其它数据集上取得了SOTA。


Sdfusion: Multimodal 3d shape completion, reconstruction, and generation

会议/期刊:CVPR 2023;伊利诺伊大学厄巴纳-香槟分校(University of Illinois Urbana-Champaign,UIUC);Yen-Chi Cheng

概述:用diffusion model进行3D资源的生成。下图展示了核心方法流程:

image-20240110144557720

首先diffusion model本身对计算性能要求就很高,再加上想用在三维数据上,原始分辨率肯定不可行。因此论文首先将三维模型(T-SDF显式表示)通过VQ-VAE压缩,这里的VQ-VAE是3D版本的,基本和图像类似,把一个“大图像”压缩成一个“小图像”。图中 E φ E_{\varphi} Eφ D φ D_{\varphi} Dφ 就是对应的编码器和解码器。编码后的size论文里好像没说,我去看了下代码应该是 1 6 3 16^3 163

图中蓝色框框就是diffusion model,在逆扩散过程用一个UNet去学习概率分布。

图中左下角解释了文章为什么说是“multimodal”,文章使用了High-Resolution Image Synthesis with Latent Diffusion Models提出的方法对逆扩散过程进行条件控制。然后对其它模态的输入进行编码,则是用的现有的方法,例如图像用CLIP、文本用BERT。


High-Resolution Image Synthesis with Latent Diffusion Models

会议/期刊:CVPR 2022;Ludwig Maximilian University of Munich & IWR, Heidelberg University, Germany;Robin Rombach

概述:之前的diffusion model都是直接在图像上做的,因为对计算资源要求高,往往图像分辨率会受到很大的限制。像是guided diffusion的图像一般都是256*256,这就需要大量的GPU去进行训练。这篇论文提出的方案是将图像编码到latent space,然后在隐空间做diffusion。

按照我的理解,图像本身包含了大量的冗余信息,例如某个像素的颜色可能和其周围的非常接近,又比如将图像分辨率减半实际上并不会太影响对图像信息的理解。因此先进行压缩到最小的语义空间然后再进行diffusion,是一个很朴素的思想。

image-20240110153002169

文章使用的编码器和解码器( ε \varepsilon ε D D D)是一个GAN架构,中间的latent space 用VQVAE的离散形式表示,通俗来讲就是”把大图像压缩成小图像“。文章中称为perceptual compression。进行压缩后的扩散模型优化目标可以写为

image-20240110154611260

除了latent的特点之外,论文还给出了条件控制的方法,也就是图中右边框框所示。对于不同模态的控制条件输入 y y y,用一个domain specific encoder τ θ \tau_{\theta} τθ 进行编码,然后用 cross-attention 的注意力机制,实际上就是注意力机制,只不过QKV用 τ θ \tau_{\theta} τθ 的输出进行计算:

image-20240110155340170

这样将控制信息引入diffusion过程。


NerVE: Neural Volumetric Edges for Parametric Curve Extraction from Point Cloud

会议/期刊:CVPR 2023;SSE, CUHKSZ(港中大深圳理工);Xiangyu Zhu

概述:一个从点云提取参数化曲线的工作。

传统的边缘提取的做法是,先识别出关键点,然后再提取边缘。本文则是直接提取出曲线,方法流程如下:

image-20240110164411143

首先论文定义了“边”如何用体素来表示(Volumetric Edge),大致就是对每一个体素定义:(1)是否占用;(2)是否与邻居相连,论文定义了方向所以只有3个邻居;(3)顶点在体素,也就是一个小方块里面的坐标。

然后对于输入的点云,接一个PointNet++,最后池化为一个特征向量,然后再用3D CNN卷积为体素形式,也就是图中的“Feature Grid”。这个Feature Grid其实就是预测的Volumetric Edge,大括号右边的三个对应上一段介绍的三个数据。根据每个像素存储的3个数据,可以提取出分段线段表示(Piece-Wise Linear, PWL),虽然图中画的是"NerVE Cubes",但实际上用到的是存储的顶点坐标嘛,所以实际上就是一条一条的线段。最后用参数化样条去拟合这些线段,得到边缘结果。

我对这篇论文的看法是,首先分辨率有限,如中的Feature Grid分辨率是 3 2 3 32^3 323,不如说三维体素的神经网络分辨率都不会太高,论文里也提到这会导致很多交叉点;其次这种方法应该适合边缘比较规整的点云,通俗点讲就是“横平竖直”,比如论文只在CAD数据上做了测试。


Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild

会议/期刊:arxiv;Google Research, Brain Team;Hshmat Sahak

概述:该论文将扩散模型用于超分辨率领域,超过了过去的由GAN得到的SOTA。我大致看了下论文,他们用的网络结构基本就是另外一篇论文的网络,然后介绍了很多对图像做“degradation”的方法,例如Blur、Resize、JPEG compression,最后再加上添加噪声去增强数据。感觉文章主要说了怎么构造数据去训练,之后就是对比实验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/308765.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

26、web攻防——通用漏洞SQL注入SqlmapOracleMongodbDB2

文章目录 OracleMongoDBsqlmap SQL注入课程体系; 数据库注入:access、mysql、mssql、oracle、mongodb、postgresql等数据类型注入:数字型、字符型、搜索型、加密型(base63 json)等提交方式注入:get、post、…

ChatGPT提示词大赏:GPT Prompts Hub 2024年最新ChatGPT提示词项目

🌟 GPT Prompts Hub 🌟 English | 简体中文 Security Prompts | GPTS Prompts 欢迎来到 “GPT Prompts Hub” 存储库!🌟 探索并分享高质量的 ChatGPT 提示词。培养创新性内容,提升对话体验,激发创造力。…

创建型模式 | 建造者模式

一、建造者模式 1、原理 建造者模式又叫生成器模式,是一种对象的构建模式。它可以将复杂对象的建造过程抽象出来,使这个抽象过程的不同实现方法可以构造出不同表现(属性)的对象。创建者模式是一步一步创建一个复杂的对象&#xf…

在App Store Connect上编辑多个用户的访问权限

作为一名编程新手,在App Store Connect中管理用户权限可能初听起来有些复杂,但实际上它是一个相对直接的过程。这里是一个步骤清晰的指南来帮助您在App Store Connect上编辑多个用户的访问权限。 App Store Connect 简介 在开始之前,让我们先…

Linux权限2

相关命令 chown [用户名] [文件]​ 更改文件拥有者(加sudo强制更改) chown [拥有者]:[所属组] [文件] 更改文件拥有者和所属组(root权限下) chgrp [用户名] [文件] 更改文件所属组 文件类型 输入ls或ll显示的文件&#xff…

网络协议攻击与模拟_02ARP协议

一、arp协议简介 一个工作在二层的三层协议,事一个2.5层协议 ARP协议地址解析协议,将一个已知的Ip地址解析为MAC地址,从而进行二层数据交互 二、工作流程 1、两个阶段 ARP请求ARP响应 两台主机IP地址主机A和主机B,IP地址和MAC…

Ubuntu 实时查看显存调用命令 free 及命令详解与原理说明(全)

Ubuntu 实时查看显存调用命令 free 及详解 文章目录 Ubuntu 实时查看显存调用命令 free 及详解1 free 作用1.1 语法:1.2 单独显示例子1.3 组合显示例子 2 输出介绍3 原理解释3.1 buff / cache(即 buffer / cache)3.1.1 buffer 缓冲区3.1.2 ca…

Java生成包含ehcarts报表的PDF文件,亲测有效!!!

1.引入maven依赖 <dependency><groupId>org.jfree</groupId><artifactId>jfreechart</artifactId><version>1.5.3</version></dependency><dependency><groupId>com.itextpdf</groupId><artifactId>i…

QT第三天

完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面如果账号和密码不匹配&#xff0…

基于SELinux三权分立配置方法

1.系统安装 系统安装完成后,系统当前的SELinux配置为: # cat /etc/selinux/config SELINUX=enforcing SELINUXTYPE=targeted 2.SELinux环境准备 # yum install setools policycoreutils.x86_64 selinux-policy-mls.noarch setroubleshoot.x86_64 setools-console -y 3.SELin…

Qt/QML编程学习之心得:hicar手机投屏到车机中控的实现(32)

hicar,是华为推出的一款手机APP,有百度地图、华为音乐,更多应用中还有很多对应手机上装在的其他APP,都可以在这个里面打开使用,对开车的司机非常友好。但它不仅仅是用在手机上,它还可以投屏到车机中控上,这是比较神奇的一点。 HiCar本质上是一套智能投屏系统,理论上所有…

【Unity】Timer计时器属性及使用

可以代替协程完成延时操作 可以不用Update进行计时 GitHub开源计时插件 网址&#xff1a;https://github.com/akbiggs/UnityTimer/tree/master 导入&#xff1a;URL&#xff1a;https://github.com/akbiggs/UnityTimer.git 基本功能&#xff1a; 创建计时器&#xff1a; Time…

计算机导论03-计算机组成

计算机系统结构 冯•诺依曼体系结构 冯•诺依曼体系结构的基本要点 冯•诺依曼思想即冯•诺依曼体系结构思想&#xff0c;其最基本的概念是存储程序概念&#xff0c;它奠定了现代计算机的结构基础。 功能部件: 计算机必须具备五大基本组成部件&#xff0c;包括&#xff1a;运…

15个等轴视图设计的电动车汽车无人机等PR剪辑素材视频制作元素

包含15个等轴视图、等距视角电动车、汽车、无人机、沙漏、飞机等PR剪辑素材视频制作元素mogrt动画模板。 特征&#xff1a; 等距设计&#xff1b; 可以更改颜色&#xff1b; 分辨率&#xff1a;全高清&#xff08;19201080&#xff09;&#xff1b; 持续时间&#xff1a;15秒&a…

[机缘参悟-122] :IT人如何认识自己的?自省、面试、考核、咨询?

目录 一、为什么要认识自己 二、认识自己的哪些方面&#xff1f; 三、如何认识自己 3.1 通过自省认识自己 3.2 通过面试认识自己 3.3 通过咨询认识自己 3.4 通过相亲认识自己 3.5 通过一段感情关系认识自己 一、为什么要认识自己 认识自己在人类的成长和心灵发展过程中…

RTX20系开启超分辨率

我的显卡是2070s现在也支持了超分辨率,根据网上的教程一通折腾后发现了不少的坑,记一下.希望有缘人可以少走点弯路. 机器配置如下: [CPU] CPU #1: 3600MHz, AMD Ryzen 7 3700X 8-Core Processor , AMD64 Family 23 Model 113 Stepping Instruction set: MMX MMX…

Camunda外部任务

外部任务&#xff1a;即任务可以在外部系统进行审批。 一&#xff1a;pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instan…

零基础学习数学建模——(二)数学建模的步骤

本篇博客将详细介绍数学建模的步骤。 文章目录 引例&#xff1a;年夜饭的准备第一步&#xff1a;模型准备第二步&#xff1a;模型假设第三步&#xff1a;模型建立第四步&#xff1a;模型求解第五步&#xff1a;结果分析第六步&#xff1a;模型检验第七步&#xff1a;模型应用及…

分布式全局id

分布式全局id snowflake 算法是 twitter 开源的分布式 id 生成算法&#xff0c;采用 Scala 语言实现&#xff0c;是把一个 64 位的 long 型的 id&#xff0c;1 个 bit 是不用的&#xff0c;用其中的 41 bits 作为毫秒数&#xff0c;用 10 bits 作为工作机器 id&#xff0c;12 …

【C++进阶05】AVL树的介绍及模拟实现

一、AVL树的概念 二叉搜索树的缺点 二叉搜索树虽可以缩短查找效率 但如果数据有序或接近有序 二叉搜索树将退化为单支树 查找元素相当于在顺序表中搜索元素&#xff0c;效率低下 AVL树便是解决此问题 向二叉搜索树中插入新结点 并保证每个结点的左右子树 高度之差的绝对值不超…