CV每日论文--2024.6.28

1、On Scaling Up 3D Gaussian Splatting Training

中文标题:扩展 3D 高斯泼溅训练

简介:3D高斯点描(3DGS)由于其卓越的视觉质量和渲染速度,越来越受欢迎用于3D重建。然而,3DGS的训练目前仅在单个GPU上进行,由于内存限制,它的处理高分辨率和大规模3D重建任务的能力受到限制。

为了解决这个问题,我们开发了Grendel,这是一个分布式系统,旨在将3DGS参数分区并在多个GPU上并行计算。由于每个高斯影响渲染像素的一个小的动态子集,Grendel采用稀疏全对全通信将必要的高斯传输到像素分区,并执行动态负载平衡。与现有的一次使用一个摄像头视图图像进行训练的3DGS系统不同,Grendel支持使用多个视图进行批量训练。

我们探索了各种优化超参数缩放策略,并发现简单的sqrt(批量大小)缩放规则非常有效。使用大规模、高分辨率场景的评估表明,Grendel通过在多个GPU上扩展3DGS参数来提高渲染质量。在Rubble数据集上,我们将4040万个高斯分布在16个GPU上,获得了27.28的测试PSNR,而在单个GPU上使用1120万个高斯时,只有26.28的PSNR。

Grendel是一个开源项目,可在 https://github.com/nyu-systems/Grendel-GS 上获得。

2、MultiDiff: Consistent Novel View Synthesis from a Single Image

中文标题:MultiDiff:从单个图像合成一致的新颖视图

简介:我们介绍了一种新颖的方法——MultiDiff,用于从单个RGB图像一致地合成场景的新视角。从单个参考图像合成新视角的任务本质上是高度不适定的,因为存在多个未观察区域的合理解释。

为了解决这个问题,我们采用了形式上的单目深度预测和视频扩散模型等强先验。单目深度使我们能够将模型的条件设置为目标视角的变形参考图像,从而提高几何稳定性。视频扩散先验为3D场景提供了强有力的代理,使模型能够学习生成图像之间的连续且像素精确的对应关系。与依赖于自回归图像生成的方法相比,后者容易出现漂移和误差积累,MultiDiff同时合成一系列帧,可以产生高质量和多视角一致的结果,即使是具有大相机移动的长期场景生成,同时将推理时间降低一个数量级。

为了进一步提高一致性和图像质量,我们引入了一种新颖的结构噪声分布。我们的实验结果表明,MultiDiff在具有挑战性的真实世界数据集RealEstate10K和ScanNet上优于最先进的方法。最后,我们的模型自然支持多视角一致的编辑,无需进一步调整。

3、ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

中文标题:ChronoMagic-Bench:文本转延时视频生成的变形评估基准

简介:我们提出了一个新的文本到视频(T2V)生成基准,名为ChronoMagic-Bench,用于评估T2V模型(如Sora和Lumiere)在延时视频生成中的时间和形态能力。与现有基准侧重于所生成视频的视觉质量和文本相关性不同,ChronoMagic-Bench侧重于模型生成具有显著形态变化和时间连贯性的延时视频的能力。

该基准以自由形式文本查询的方式探测T2V模型的物理、生物和化学能力。为此,ChronoMagic-Bench引入了1,649个提示和真实世界视频作为参考,分为四类主要的延时视频:生物、人类创造、气象和物理现象,这些又进一步分为75个子类别。这种分类全面评估了模型处理各种复杂变换的能力。

为了准确地将人类喜好与基准对齐,我们引入了两个新的自动度量标准,MTScore和CHScore,用于评估视频的形态变化属性和时间连贯性。MTScore衡量形态变化幅度,反映随时间的变化程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑进展和连续性。

基于ChronoMagic-Bench,我们对十个代表性的T2V模型进行了全面的手动评估,揭示了它们在不同提示类别下的优缺点,并提供了一个全面的评估框架,解决了视频生成研究中的当前差距。此外,我们创建了一个大规模的ChronoMagic-Pro数据集,包含460k对720p延时视频和详细标题,确保具有高物理相关性和大形态变化幅度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/763695.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

链表--逆置

#include <stdio.h> #include <stdlib.h>struct ListNode {int data;struct ListNode *next; };struct ListNode *createlist(); /*裁判实现&#xff0c;细节不表*/ struct ListNode *reverse( struct ListNode *head ); void printlist( struct ListNode *head ) …

一些迷你型信息系统

只有一个表&#xff0c;比较简单易用&#xff1b; 1 博物馆信息查询系统 信息录入&#xff0c;浏览&#xff0c;添加&#xff0c;更新&#xff0c;删除&#xff1b; 下载&#xff0c; https://download.csdn.net/download/bcbobo21cn/89505217

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型 0.Milvus与Faiss对比 Milvus相对于Faiss的优势主要体现在以下几个方面: 在线数据更新与实时搜索: Milvus支持在线的数据更新和实时的向量搜索,这意味着在数…

调度器APScheduler定时执行任务

APScheduler&#xff08;Advanced Python Scheduler&#xff09;是一个Python库&#xff0c;用于调度任务&#xff0c;使其在预定的时间间隔或特定时间点执行。它支持多种调度方式&#xff0c;包括定时&#xff08;interval&#xff09;、日期&#xff08;date&#xff09;和Cr…

网络安全等级保护2.0(等保2.0)全面解析

一、等保2.0的定义和背景 网络安全等级保护2.0&#xff08;简称“等保2.0”&#xff09;是我国网络安全领域的基本制度、基本策略、基本方法。它是在《中华人民共和国网络安全法》指导下&#xff0c;对我国网络安全等级保护制度进行的重大升级。等保2.0的发布与实施&#xff0c…

WEB01MySQL安装和数据库

第一天、WEB课程 web课程主要讲三部分内容 数据库 数据库介绍 什么是数据库 数据存储的仓库&#xff0c;其本质也是一个文件系统 数据库会按照特定的格式对数据进行存储&#xff0c;用户可以对数据库中的数据进行增加&#xff0c;修改&#xff0c;删除及查询操作。 数据库…

240701_昇思学习打卡-Day13-Vision Transformer图像分类

240701_昇思学习打卡-Day13-Vision Transformer图像分类 Transformer最开始是应用在NLP领域的&#xff0c;拿过来用到图像中取得了很好的效果&#xff0c;然后他就要摇身一变&#xff0c;就叫Vision Transformer。 该部分内容还是参考太阳花的小绿豆-CSDN博客大佬的视频11.1 …

JTracker IDEA 中最好的 MyBatis 日志格式化插件

前言 如果你使用 MyBatis ORM 框架&#xff0c;那么你应该用过 MyBatis Log 格式化插件&#xff0c;它可以让我们的程序输出的日志更人性化。 但是有一个问题&#xff0c;通常我们只能看到格式化后的效果&#xff0c;没办法知道这个 SQL 是谁执行的以及调用的链路。 如下图所…

python之列表

1.概述 线性的数据结构 有序的队列&#xff0c;可以使用下标进行索引 可变的序列 列表中的个体称为元素&#xff0c;多个元素组成列表 列表的语法是[],多个元素使用逗号分隔 列表中的元素类型可以不同 2.定义列表 使用【】方法&#xff0c;多个元素之间使用逗号进行分隔 使用li…

【单片机毕业设计选题24042】-基于无线传输的老人健康监护系统

系统功能: 系统操作说明&#xff1a; 上电后OLED显示 “欢迎使用健康监护系统请稍后”&#xff0c;两秒后显示Connecting...表示 正在连接阿里云&#xff0c;正常连接阿里云后显示第一页面&#xff0c;如长时间显示Connecting...请 检查WiFi网络是否正确。 第一页面第一行…

机器人入门路线及参考资料(机器人操作方向)

机器人&#xff08;操作方向&#xff09;入门路线及参考资料 前言1 数理基础和编程2 机器人学理论3 计算机视觉4 机器人实操5 专攻方向总结Reference: 前言 随着机器人和具身智能时代的到来&#xff0c;机器人越来越受到大家的重视&#xff0c;本文就介绍了机器人&#xff08;…

方正小标宋简体、仿宋GB2312、楷体GB2312字体

文章目录 下载地址所有的文件wps使用方正小标宋简体、仿宋GB2312、楷体GB2312 字体用途方正小标宋简体仿宋GB2312楷体GB2312 下载地址 【金山文档 | WPS云文档】 方正小标宋简体、仿宋GB2312、楷体GB2312 https://kdocs.cn/l/cksgHDLneqDk 所有的文件 wps使用 方正小标宋简体…

一场前端框架的“武林大会”,三大主流框架之间的性能比较!!!

大家好,我是CodeQi! 在前端开发的江湖中,Vue.js、React 和 Angular 可谓是三大门派,个个身怀绝技,堪称“武林三杰”。 我,作为一名勤奋的代码侠士,决定深入研究这三大门派的奥义,探讨它们在性能方面的表现。且听我细细道来。 什么是 Vue? Vue.js 是由尤雨溪创建的前…

【Python机器学习】模型评估与改进——打乱划分交叉验证

打乱划分交叉验证是一种非常灵活的交叉验证策略。 在打乱划分交叉验证中&#xff0c;每次划分为训练集取样train_size个点&#xff0c;为测试集取样test_size个不相交的点。将这一划分方法重复n_iter次。 举例&#xff1a; import matplotlib.pyplot as plt import mglearnm…

2007年上半年软件设计师【上午题】试题及答案

文章目录 2007年上半年软件设计师上午题--试题2007年上半年软件设计师上午题--答案2007年上半年软件设计师上午题–试题

高优先线程

你开发的时候有么有遇到过一个问题&#xff1a;服务器的一个服务线程过几个小时断连一次&#xff0c;断连之后会马上重连这种情况。这是由于CPU负载较高,线程调度时将处理数据的线程挂起了一段时间导致的。 因此&#xff0c;我有考虑到把cpu的核心进行分散开来&#xff0c;就类…

【stm32】大一上学期笔记复制

砌墙单片机 外设是什么&#xff1f; ipage 8 nx轴 128 X0-127 y0-63 PWM脉冲宽度调制 PWM脉冲宽度调制 2023年10月13日 基本特性&#xff1a;脉冲宽度调制PWM是一种对模拟信号进行数字编码的方法。广泛引用于电机控制&#xff0c;灯光的亮度调节&#xff0c;功率控制等领域…

【C++】——【 STL简介】——【详细讲解】

目录 ​编辑 1. 什么是STL 2. STL的版本 3. STL的六大组件 1.容器(Container)&#xff1a; 2.算法(Algorithm)&#xff1a; 3.迭代器(Iterator)&#xff1a; 4.函数(Function)&#xff1a; 5.适配器(Adapter)&#xff1a; 6.分配器(Allocator)&#xff1a; 4. STL的…

Java开发者如何使用RunFlow内置的QLExpress

原文发表于 solo独立开发者社区《Java开发者如何使用RunFlow内置的QLExpress》 效率工具RunFlow完全手册之Java开发者篇 本文是为Java开发者写的手册&#xff0c;如果您不是Java开发者可以阅读我们的开发者篇手册&#xff0c;当然如果您感兴趣也可以继续阅读。 输入 qe 进入QL…

2024年注册安全工程师报名详细流程

一、用户注册 1.1全国专业技术人员资格考试报名服务平台 注册登录网址http://zg.cpta.com.cn/examfront/login/initLogin.html 1.2填写资料 1.3进入照片维护&#xff0c;上传证件照。 需要使用【照片审核处理工具】 将照片处理成符合要求的大小格式。 ①下载照片处理工具http:/…