具有运动模糊的大规模场景的混合神经绘制

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 摘要
  • Abstract
  • 文献阅读:具有运动模糊的大规模场景的混合神经绘制
    • 1、研究背景
    • 2、方法提出
    • 3、视点依赖归一化方法
    • 4、训练方法
    • 5、试验细节及对比
  • YOLO模型
    • 1、什么是YOLO
    • 2、YOLO原理
    • 3、bounding box
    • 4、损失函数
  • 总结


摘要

本周的学习内容主要是以阅读文献为基础,在文献中了解前沿知识。这次共阅读具有运动模糊的大规模场景的混合神经绘制,了解移动运动模糊的神经辐射场中的问题,以及了解文中提出的视点依赖归一化方法的工作原理。此外还学习了解了YOLO模型,了解其大致的工作原理,与先前学习的卷积神经网络模型进行对比,并开始学习MMdetection的相关代码知识。

Abstract

This week’s learning content is mainly based on reading literature to understand cutting-edge knowledge. This time, I read a large-scale scene with motion blur for hybrid neural rendering, and I learned about the problems in the neural radiation field of mobile motion blur, as well as the working principle of the viewpoint-dependent normalization method proposed in the article. In addition, I also learned about the YOLO model, understood its general working principle, compared it with the previously learned convolutional neural network model, and began to learn the relevant code knowledge of MMdetection.


文献阅读:具有运动模糊的大规模场景的混合神经绘制

Title: VDN-NeRF_Resolving_Shape-Radiance_Ambiguity_via_View-Dependence_Normalization
Author:Bingfan Zhu , Yanchao Yang , Xulong Wang , Youyi Zheng† , Leonidas Guibas
From:2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

1、研究背景

在三维渲染中,形状-辐射模糊和方向性视图依赖性是一个重要的问题。形状-辐射模糊是指由于光照和物体表面的相互作用,相同的表面点在不同的视角下可能会表现出不同的辐射亮度。方向性视图依赖性则是指物体表面的辐射亮度不仅取决于表面的几何形状,还取决于观察者的视角。为了处理这个问题,我们需要增加方向性颜色函数的容量。但是,我们不能让这个容量超过所需的范围,否则形状-辐射模糊就会开始影响几何形状的估计精度。换句话说,我们需要找到一个平衡点,既能处理方向性视图依赖性,又能保持几何形状的精度。此外,我们还可以通过训练神经网络来解决这个问题。例如,我们可以使用一种名为NeuS的神经网络进行训练,这个神经网络可以为每个对象生成一个可学习的颜色分支,用于处理方向性视图依赖性。通过调整这个颜色分支的容量,我们可以更好地平衡形状-辐射模糊和方向性视图依赖性的问题。

2、方法提出

VDN-NeRF是一种改进神经辐射场(NeRF)的方法,用于在非朗伯表面和动态光照条件下更好地重建三维场景的几何形状。这种方法通过解决形状-辐射模糊性来提高几何精度。在非朗伯表面和动态光照条件下,一个点的辐射度会因观察角度的不同而发生显著变化,这给三维重建带来了挑战。传统的NeRF方法通常会受到形状-辐射模糊性的影响,导致重建的几何形状不够准确。为了解决这个问题,VDN-NeRF提出了一种简单而有效的技术,通过在训练过程中对视图依赖性进行归一化,从已学习的NeRF中提取不变量信息。通过这种方法,NeRF可以更好地捕获形状和光照信息的内在关联,从而提高几何重建的准确性。具体来说,VDN-NeRF首先对NeRF进行训练,以进行视图合成。然后,它采用一种简单的归一化技术,将视图依赖性纳入考虑范围,从而对训练数据进行调整。这样可以在训练过程中优化几何形状的重建结果。通过这种方法,即使在非朗伯表面和动态光照条件下,也可以获得高质量的几何形状重建结果。
在这里插入图片描述

3、视点依赖归一化方法

视点依赖归一化方法是一种优化技术,用于解决Volume rendering中的shape-radiance ambiguity和directional view-dependence问题。该方法通过调整神经网络的权重,使其更好地适应方向性变化,从而提高几何形状的准确性。具体来说,视点依赖归一化方法首先对输入数据进行归一化处理,将数据转换到同一尺度下。然后,使用神经网络对归一化后的数据进行学习,得到每个像素点的颜色值。在训练过程中,通过反向传播算法不断调整神经网络的权重,以最小化渲染结果与真实场景之间的差异。
为了更好地适应方向性变化,视点依赖归一化方法引入了方向性函数的概念。方向性函数用于描述在不同观察角度下像素点的颜色值变化规律。通过学习方向性函数,神经网络能够更好地理解不同观察角度下的像素值之间的关系,从而在渲染过程中更准确地预测像素点的颜色值。

4、训练方法

文章提到了一个联合训练的目标函数L,它由三个部分组成:颜色损失λcolor、视图依赖归一化损失Lvdn和正则化损失Lreg。颜色损失用于最小化重建图像与原始图像之间的颜色差异,视图依赖归一化损失用于对不同视图的特征进行归一化处理,正则化损失则用于对网络进行正则化,防止过拟合。具体来说,颜色损失函数和视图依赖归一化损失函数被最小化,其中颜色损失函数用于衡量输入图像和重建图像之间的颜色差异,而视图依赖归一化损失函数则用于对深度神经网络进行正则化,以提高网络的泛化能力。
在这里插入图片描述

5、试验细节及对比

中采用了NeuS和WaveletMonodepth两种深度学习网络结构。NeuS是一种基于多层感知器(MLP)的深度神经网络,用于特征提取和深度估计。在NeuS中,特征函数F和辐射函数c具有相似的架构,即4层MLP,隐藏维度为256。同时,文中还采用了分层采样策略,将批量大小设置为512。另外,为了进一步提高网络的泛化能力,文中还引入了WaveletMonodepth作为深度学习网络结构。WaveletMonodepth采用DenseNet161作为其骨干网络,并预训练了几个epoch以加速收敛。在训练过程中,特征提取器从Distillation网络的第一个Conv block中提取深度特征。
在这里插入图片描述

文章中提到了对不同的方法进行比较,包括COLMAP、Plenoxels、NeRF、NeRF-W、NeROIC、RefNeRF、VolSDF、NeuS、Geo-A和GeoNeuS等。这些方法涵盖了基于体积的方法和基于表面方向场(SDF)的方法。在比较中,文章提到了使用Intersection-over-Union (IoU)、L1/L2 Chamfer Distance (CD)、Normal Consistency (NC)和f-score等度量标准来评估这些方法的性能。这些度量标准用于衡量多视图重建结果的准确性。此外,文章还提到了使用提出的视图依赖性归一化方法(VolSDF+F、Geo-A+F和Ours)对一些方法进行改进,并观察到这些改进方法的有效性。在这些改进方法中,Ours(即NeuS)在所有度量标准上均取得了最好的性能。文章提出的方法能够保留更准确的几何形状和更多的细节,同时减少伪影。
在这里插入图片描述

YOLO模型

1、什么是YOLO

YOLO是一种目标检测模型,全称You Only Look Once,属于目标检测模型的一种。目标检测是计算机视觉中相对简单的任务,旨在在一幅图像中找到特定的物体。YOLO模型将单个神经网络应用于整个图像,将图像划分为若干个网格,每个网格预测一定数量的边界框和其相应的置信概率。这些边界框表示图像中物体的位置,置信概率表示预测边界框的准确性。与以往的带有建议框的神经网络相比,YOLO的速度有显著提升。在YOLO中,每个网格只负责预测一种物体,因此可以一次性输出所有检测到的目标信息,包括类别和位置。这使得YOLO具有较高的处理速度,适用于实时检测等应用场景。

2、YOLO原理

目的是在一张图片中找出物体,并给出它的类别和位置。目标检测是基于监督学习的,每张图片的监督信息是它所包含的N个物体,每个物体的信息有五个,分别是物体的中心位置(x,y)和它的高(h)和宽(w),最后是它的类别。YOLO 的预测是基于整个图片的,并且它会一次性输出所有检测到的目标信息,包括类别和位置。先假设我们处理的图片是一个正方形。YOLO的第一步是分割图片,它将图片分割为 n2
个grid,每个grid的大小都是相等的,像下图这样:
在这里插入图片描述
具体方法: n2个框每个都预测出B个bounding box,这个bounding box有5个量,分别是物体的中心位置(x,y)和它的高(h)和宽(w),以及这次预测的置信度。每个框框不仅只预测B个bounding box,它还要负责预测这个框框中的物体是什么类别的,这里的类别用one-hot编码表示。注意,虽然一个框框有多个bounding boxes,但是只能识别出一个物体,因此每个框框需要预测物体的类别,而bounding box不需要。每个框框的bounding boxes个数为B,分类器可以识别出C种不同的物体,那么所有整个ground truth的长度为:n x n x ( B x 5 + C )

3、bounding box

bounding box可以锁定物体的位置,这要求它输出四个关于位置的值,分别是x,y,h和w。我们在处理输入的图片的时候想让图片的大小任意,这一点对于卷积神经网络来说不算太难,但是,如果输出的位置坐标是一个任意的正实数,模型很可能在大小不同的物体上泛化能力有很大的差异。这时候当然有一个常见的套路,就是对数据进行归一化,让连续数据的值位于0和1之间。对于x和y而言,这相对比较容易,毕竟x和y是物体的中心位置,既然物体的中心位置在这个grid之中,那么只要让真实的x除以grid的宽度,让真实的y除以grid的高度就可以了。但是h和w就不能这么做了,因为一个物体很可能远大于grid的大小,预测物体的高和宽很可能大于bounding box的高和宽,这样w除以bounding box的宽度,h除以bounding box的高度依旧不在0和1之间。解决方法是让w除以整张图片的宽度,h除以整张图片的高度。

4、损失函数

YOLO的损失函数由三个部分组成:坐标损失、置信度损失和类别损失。
坐标损失是指预测框与真实框之间的位置差异。对于每个预测框,计算其与真实框的重心坐标和宽高之差的平方和,然后取平方根得到每个预测框的坐标损失。
置信度损失是指预测框与真实框之间的匹配程度。对于每个预测框,计算其与真实框的交并比,并根据交并比的值确定该预测框的置信度损失。如果预测框与真实框不匹配,则置信度损失较大;如果预测框与真实框匹配,则置信度损失较小。
类别损失是指预测框中是否包含目标物体的类别信息。对于每个预测框,计算其与真实框的交并比,并根据交并比的值确定该预测框的类别损失。如果预测框中包含目标物体,则类别损失较小;如果预测框中不包含目标物体,则类别损失较大。
在这里插入图片描述


总结

本周的文献阅读,具有运动模糊的大规模场景的混合神经绘制,了解移动运动模糊的神经辐射场中的问题,以及了解文中提出的视点依赖归一化方法的工作原理。在这阅读的过程中充满着许多的疑惑,也多次翻阅其他文献及网页解读才大概了解,希望未来以此打下基础对相关知识能学习地更好。此外还学习了解了YOLO模型,了解其大致的工作原理,开始学习MMdetection的相关代码知识,从整个BackBone、Neck、Head框架开始学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/340626.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

.NET高速开发分层架构,ASPNETCore,IOC开发

分层架构,ASPNETCore,IOC开发 大家好,我是行不更名,坐不改姓的宋晓刚。今天我将带领大家深入了解分层架构、ASP.NET Core、IoC 开发,以及共同开发的魅力。我们将一同探索如何利用这些先进技术构建高效、可维护的数据库应用程序。 家人们,如果有什么不懂,可以留言,或者…

【JS逆向学习】国家加密系列-SM算法实例

SM系列 1、国家加密算法介绍 事实上从 2010 年开始,我国国家密码管理局就已经开始陆续发布了一系列国产加密算法,其中SM1、SM4、SM7、祖冲之密码(ZUC)是对称算法;SM2、SM9是非对称算法;SM3是哈希算法。目…

大数据导论(4)---大数据应用

文章目录 1. 在互联网中的应用1.1 推荐系统1.2 长尾理论1.3 推荐方法与模型1.4 推荐系统应用 2. 在其他领域的应用2.1 企业营销2.2 智慧交通 1. 在互联网中的应用 1.1 推荐系统 1. 推荐系统产生:  (1) 互联网的飞速发展使我们进入了信息过载的时代,搜索…

二叉树题目:二叉树的序列化与反序列化

文章目录 题目标题和出处难度题目描述要求示例数据范围 前言解法一思路和算法代码复杂度分析 解法二思路和算法代码复杂度分析 题目 标题和出处 标题:二叉树的序列化与反序列化 出处:297. 二叉树的序列化与反序列化 难度 8 级 题目描述 要求 序列…

数据结构:堆与堆排序

目录 堆的定义: 堆的实现: 堆的元素插入: 堆元素删除: 堆初始化与销毁: 堆排序: 堆的定义: 堆是一种完全二叉树,完全二叉树定义如下: 一棵深度为k的有n个结点的二…

微信小程序的nodejs+vue课堂在线学习系统教学辅助平台PHP设计与实现

小程序主要实现功能:一、用户的登录与实现 二、课程页面。学生们可以观看课程视频【课程视频有章程】,搜索课程,课程签到,评论课程,课后答题(课后成绩),课程互动(在视频下…

【深度学习】手把手教你使用 Auto DL 远程服务器连接 PyCharm

前言 文章性质:实操记录 💻 主要内容:主要记录了如何租用 Auto DL 服务器,以及如何在 PyCharm 中连接远程服务器。 相关文档:如何使用 Auto DL 远程服务器连接 PyCharm 运行代码 - 知乎 冷知识1:小伙伴们不…

c++:string相关的oj题(把字符串转换成整数、344.反转字符串、387. 字符串中的第一个唯一字符、917. 仅仅反转字母)

文章目录 1.把字符串转换成整数题目详情代码思路 2. 344.反转字符串题目详情代码1思路1代码2思路 3. 387. 字符串中的第一个唯一字符题目详情代码思路 4. 917. 仅仅反转字母题目详情代码思路 1.把字符串转换成整数 传送门 题目详情 代码 class Solution { public:int StrToI…

提升用户体验的利器——TTS语音合成软件盘点

提升用户体验的利器——TTS语音合成软件盘点 在当今信息爆炸的时代,人们每天都要处理大量的文本信息。因此,将文本信息转化为语音信息,使得信息能够以更自然、更方便的方式传达给人们,就显得尤为重要。这就是TTS(Text…

【C++修行之道】竞赛常用库函数(sort,min和max函数,min_element和max_element、nth_element)

目录 一、sort 1.1sort简介 语法 参数 功能 适用容器 1.2sort的用法 1.3自定义比较函数 示例 1265蓝桥题 —— 排序 二、min和max函数 三、min_element和max_element 497蓝桥题 —— 成绩分析 四、nth_element 一、sort 1.1sort简介 sort函数包含在头文件<a…

手机软件的测试主要有哪些方面去测试,性能测试用什么去测试好?

手机App软件与Web软件系统的架构是不一样的&#xff0c;手机是基于CS架构&#xff0c;而Web系统是基于BS架构的&#xff0c;所以测试手机App软件那么要考虑的东西会更多一些。 分析题主的问题包含两块&#xff1a; 1、手机软件(App)测试主要有哪些方面&#xff1f; 2、手机软件…

【C/C++】C/C++编程——为什么学习 C++?

当提到C的时候&#xff0c;很多人会觉得语法复杂、学习曲线陡峭&#xff0c;并且好像与C语言还有点"纠缠不清"。尽管如此&#xff0c;C仍然是当今世界上最受欢迎和最有影响力的编程语言之一。特别是在当今快速发展的人工智能&#xff08;AI&#xff09;领域&#xff…

java数据结构与算法刷题-----LeetCode645. 错误的集合(位运算解法需要重点掌握)

java数据结构与算法刷题目录&#xff08;剑指Offer、LeetCode、ACM&#xff09;-----主目录-----持续更新(进不去说明我没写完)&#xff1a;https://blog.csdn.net/grd_java/article/details/123063846 文章目录 法一&#xff1a;桶排序思想法二&#xff1a;位运算 法一&#x…

gdip-yolo项目解读:gdip模块 |mdgip模块 |GDIP regularizer模块的使用分析

gdip-yolo是2022年提出了一个端到端的图像自适应目标检测框架&#xff0c;其论文中的效果展示了良好的图像增强效果。其提出了gdip模块 |mdgip模块 |GDIP regularizer模块等模块&#xff0c;并表明这是效果提升的关键。为此对gdip-yolo的项目进行深入分析。 gdip-yolo的论文可以…

ARM 驱动 1.22

linux内核等待队列wait_queue_head_t 头文件 include <linux/wait.h> 定义并初始化 wait_queue_head_t r_wait; init_waitqueue_head(&cm_dev->r_wait); wait_queue_head_t 表示等待队列头&#xff0c;等待队列wait时&#xff0c;会导致进程或线程被休眠&…

springsecurity集成kaptcha功能

前端代码 本次采用简单的html静态页面作为演示&#xff0c;也可结合vue前后端分离开发&#xff0c;复制就可运行测试 项目目录 登录界面 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</…

详谈c++智能指针!!!

文章目录 前言一、智能指针的发展历史1.C 98/03 的尝试——std::auto_ptr2.std::unique_ptr3.std::shared_ptr4.std::weak_ptr5.智能指针的大小6.智能指针使用注意事项 二、智能指针的模拟实现三、C11和boost中智能指针的关系 前言 C/C 语言最为人所诟病的特性之一就是存在内存…

Quartus II使用小技巧

工程结构&#xff1a; 在建立完某项设计的文件后&#xff0c;依次在其里面新建四个文件夹&#xff0c;分别为&#xff1a;rtl、qprj、msim、doc。 rtl文件夹用于存放设计的源文件。 doc文件夹用于存放设计的一些文档性的资料。 qprj文件夹用于存放quaruts 工程以及quartus生…

陪玩系统:最新商业版游戏陪玩语音聊天系统3.0商业升级独立版本源码

首发价值29800元的最新商业版游戏陪玩语音聊天系统3.0商业升级独立版本源码 &#xff08;价值29800&#xff09;最新陪玩3.0独立版本 &#xff0c;文件截图 结尾将会附上此系统源码以及详细搭建教程包含素材图仅用于学习使用 陪玩系统3.0独立升级版正式发布&#xff0c;此版本…

项目管理中如何有效沟通?项目管理有效沟通指南

无论是少数人的小型企业还是拥有数十名员工的大公司&#xff0c;有效的沟通对于确保每个人都参与并准备好在项目中实现相同的目标至关重要。 然而&#xff0c;由于沟通不畅&#xff0c;似乎在翻译中总是丢失一些东西。事实上&#xff0c;根据布兰迪斯大学的一项研究&#xff0c…