CV每日论文--2024.6.14

1、ICE-G: Image Conditional Editing of 3D Gaussian Splats

中文标题:ICE-G:3D 高斯斑点的图像条件编辑

简介:近年来,出现了许多技术来创建高质量的3D资产和场景。然而,当涉及到这些3D对象的编辑时,现有方法要么速度慢、要么牺牲质量,要么无法提供足够的自定义能力。

为解决这一问题,我们提出了一种新颖的方法,可以快速编辑单个参考视图的3D模型。

我们的技术分为以下几个步骤:

1. 对编辑图像进行分割。

2. 利用DINO特征在选定的分割视图之间匹配语义对应区域。

3. 自动将编辑图像中特定区域的颜色或纹理以语义合理的方式应用到其他视图。

这些编辑后的视图可以作为更新的数据集,以进一步训练和重新设计3D场景,从而得到最终的编辑后3D模型。

我们的框架支持多种编辑任务,包括手动本地编辑、基于对应关系的风格转移,以及从多个示例图像中组合不同风格。

我们使用高斯斑点作为主要的3D表示形式,因为它们速度快且易于本地编辑。不过,我们的技术也适用于其他方法,如NeRFs。

通过多个实验案例,我们展示了该方法能够产生更高质量的结果,同时提供了精细的编辑控制能力。

项目主页:ice-gaussian.github.io

2、Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

中文标题:超越 LLaVA-HD:深入研究高分辨率大型多模态模型

简介:高分辨率的清晰视觉对于大型多模态模型(LMM)的视觉感知和推理至关重要。现有方法通常采用直接的分辨率放大方法,使用全局分支和局部分支(被切片的图像补丁)的组合。这意味着更高分辨率需要更多的局部补丁,导致计算开销过高,同时局部图像标记的优势可能会降低全局上下文。

为解决这些问题,我们提出了一个新的框架和优化策略:

1. 我们使用适配器的混合物从全局视角提取上下文信息,基于不同适配器在不同任务上的优秀表现。

2. 对于局部补丁,我们引入了可学习的查询嵌入来减少图像标记数量,并通过基于相似性的选择器进一步选择最重要的标记。

我们的实验结果表明,"少即是多"的模式,即利用更少但更有信息量的局部图像标记可以提高性能。

此外,我们提倡一种交替训练的方式,确保全局和局部方面的平衡学习,因为端到端训练无法产生最佳结果。

最后,我们还引入了一个对图像细节要求高的挑战性数据集,以增强局部压缩层的训练。

所提出的SliME方法在只有200万个训练数据的情况下,在各种基准测试中取得了领先的性能。

3、Real3D: Scaling Up Large Reconstruction Models with Real-World Images

中文标题:Real3D:使用真实世界图像放大大型重建模型

简介:本文介绍了Real3D,这是第一个可以使用单视角真实世界图像进行训练的大型重建模型(LRM)系统。通常,训练单视角LRM的默认策略是使用大规模合成3D资源或多视角捕获的数据集,采用完全监督的方法进行训练。但这些资源难以超越现有数据集的规模,也不一定代表物体形状的真实分布。

为了解决这些限制,本文提出了一种新颖的自我训练框架,可以同时利用现有的合成数据和多样化的单视角真实图像。我们提出了两种无监督损失函数,即像素级和语义级损失函数,即使对于没有地面真实3D或新视角的训练样本,也可以对LRM进行监督。

为了进一步提高性能并扩大图像数据,我们开发了一种自动数据筛选方法,从野外图像中收集高质量的样本。

实验结果表明,Real3D在包括真实和合成数据以及域内和域外形状的四种不同评估设置中始终优于先前的工作。

代码和模型可以在此处找到:https://hwjiang1510.github.io/Real3D/。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/707385.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【免费Web系列】大家好 ,今天是Web课程的第二十天点赞收藏关注,持续更新作品 !

这是Web第一天的课程大家可以传送过去学习 http://t.csdnimg.cn/K547r 部门管理 在前面的课程中,我们学习了Vue工程化的基础内容、TS、ElementPlus,那接下来呢,我们要通过一个案例,加强大家对于Vue项目的理解,并掌握…

2024年全国青少信息素养大赛python编程复赛集训第二天编程题分享

整理资料不容易,感谢各位大佬给个点赞和分享吧,谢谢 大家如果不想阅读前边的比赛内容介绍,可以直接跳过:拉到底部看集训题目 (一)比赛内容: 【小学组】 1.了解输入与输出的概念,掌握使用基本输入输出和简单运算 为主的标准函数; 2.掌握注释的方法; 3.掌握基本数…

三极管的厄利效应(early effect)

詹姆斯M厄利(James M. Early)发现的现象,厄利效应(英语:Early effect),又译厄尔利效应,也称基区宽度调制效应,是指当双极性晶体管(BJT)的集电极-射极电压VCE改…

并联谐振回路

等效电路 阻抗 电阻 电抗 导纳 电导 电纳 阻抗 * 导纳 电阻 * 电导 电抗 * 电纳 1 谐振的时候,导纳为Rp,Rp与损耗电阻R成反比,损耗电阻R较小,则Rp较大,电导的倒数才是电阻,阻抗特性与串谐对偶 谐…

HTML+CSS 动态卡片

效果演示 实现了一个带有动态背景和图片放大效果的卡片展示。卡片的背景是由两种颜色交替组成的斜线条纹&#xff0c;同时背景会以一定速度循环滚动。当鼠标悬停在卡片上时&#xff0c;卡片的图片会放大&#xff0c;并且卡片的背景会变为彩色。 Code HTML <!DOCTYPE html&…

安装VM虚拟机并创建一个Linux CentOS 7无桌面系统

一、安装vm虚拟机软件 1 下载vm压缩包 百度网盘链接 链接&#xff1a;https://pan.baidu.com/s/1ipiWatBr0wHKMt5c5nQirw?pwdwoy2 提取码&#xff1a;woy2 2.下载完毕后&#xff0c;先将杀毒软件关闭 全部关闭 3. 解压后按照步骤安装即可 按照按照步骤&#xff0c;观看…

vue-echarts与echarts图标拐点点击及其图表任意点击方法

要求&#xff1a;两个图表分别点击获取X轴时间点 一、vue-echarts&#xff1a;点击事件&#xff08;拐点点击 图表任意点击&#xff09; 效果图&#xff1a; 图一&#xff1a; 图二&#xff1a; <v-chart autoresize ref"oneMyChart" class"chart"…

基于springboot实现中山社区医疗综合服务平台系统项目【项目源码+论文说明】

基于springboot实现中山社区医疗综合服务平台系统演示 摘要 传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff0c;然而&#xff0c;随着近些年信息技术的迅猛发展&#xff0c;让许多比较老套的信息管理模式进行了更新迭代&#xff0c;居民信息因为其管理内容繁杂&…

鸿蒙轻内核A核源码分析系列六 MMU协处理器(2)

3、MMU汇编代码 在arch\arm\arm\include\arm.h文件中&#xff0c;封装了CP15协处理器相关的寄存器操作汇编函数。我们主要看下MMU相关的部分。 3.1 CP15 C2 TTBR转换表基地址寄存器 代码比较简单&#xff0c;结合下图&#xff0c;自行查看即可。该图来自《ARM Cortex-A9 Tec…

07 SpringBoot 配置绑定

所谓“配置绑定”就是把配置文件中的值与 JavaBean 中对应的属性进行绑定。通常&#xff0c;我们会把一些配置信息&#xff08;例如&#xff0c;数据库配置&#xff09;放在配置文件中&#xff0c;然后通过 Java 代码去读取该配置文件&#xff0c;并且把配置文件中指定的配置封…

二叉树之默克尔树(Merkle Tree)

wiki文档 前言 在加密学和计算机科学中,哈希树或默克尔树是一种树形数据结构,其中每个"叶子"节点都被标记为数据块的密码学哈希值,而不是叶子的节点(称为分支、内部节点或inode)则被标记为其子节点标签的密码学哈希值。哈希树允许有效和安全地验证大型数据结构的内…

某信用合作社数据架构规划方案(115页PPT)

方案介绍&#xff1a;为应对数字化转型挑战&#xff0c;某信用合作社计划实施一套新的数据架构&#xff0c;以提高数据处理效率、确保数据安全&#xff0c;并满足业务快速发展的需求。预期成效是完善的数据架构能够全面地提升我社六个方面的竞争能力&#xff0c;更好地服务于目…

HTML初体验

可参考jd.com官网&#xff0c;ctrlu查看当前页面源代码 找到你的项目&#xff0c;在项目中创建html类型的网页文件 标准的HTML正确书写格式 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title&…

数据分析-Excel基础函数的使用

Excel基础函数&#xff1a; sum:求和 sumif:单条件求和 sumifs:多条件求和 subtotal:根据筛选求和 if:逻辑判断 vlookup:连接匹配数据 match:查找数值在区域中的位置 index:根据区域的位置返回数值 match、index:一起使用&#xff1a;自动根据列名查找数据 sumifs、match、ind…

RabbitMQ实践——配置Prometheus和Grafana报表

大纲 启用rabbitmq_prometheus插件安装启动Prometheus创建用户下载并解压修改配置启动 安装启动grafana安装启动配置数据源 在《RabbitMQ实践——在Ubuntu上安装并启用管理后台》中我们已经安装成功RabbitMQ及其管理后台。在此基础上&#xff0c;我们将打通它和Prometheus、Gra…

Unity Protobuf+RPC+UniTask

远程过程调用&#xff08;RPC&#xff09;协议详解 什么是RPC协议RPC的基本原理RPC的关键组件RPC的优缺点Protobuf函数绑定CallEncodeRecvDecodeSocket.Send和Recv项目地址 什么是RPC协议 远程过程调用&#xff08;Remote Procedure Call&#xff0c;简称RPC&#xff09;是一种…

C语言| 把数组a赋给数组b

把数组a赋给数组b, 正确的写法是用for循环&#xff0c;将数组a中的元素一个一个赋给数组b的元素。 #include <stdio.h> int main(void) { int a[5] {11, 22, 33, 44, 55}; int b[5]; int i; for(i0; i<5; i) { b[i] a[i]; printf(…

手机连接ESP8266的WIFI,进入内置网页,输入要显示的内容,在OLED显示屏上显示文本

在这篇技术博客中&#xff0c;我们将探讨如何使用ESP8266 Wi-Fi 模块和SSD1306 OLED显示屏&#xff0c;构建一个简易的信息显示和交互系统。此系统能够让用户通过一个简单的Web界面输入信息&#xff0c;并将其显示在OLED屏幕上。这种设备的应用非常广泛&#xff0c;可以用于智能…

多应用对接企业微信授权和扫码登录

多应用对接企业微信授权和扫码登录是一种常见的企业级解决方案&#xff0c;它可以帮助企业实现统一的身份验证和管理&#xff0c;提升用户体验和安全性。本文将介绍如何实现多应用对接企业微信授权和扫码登录的方法和步骤。 # 第一步&#xff1a;注册企业微信开放平台应用 首…

Java——IO流(一)-(4/8):前置知识-字符集、UTF-8、GBK、ASCII、乱码问题、编码和解码等

目录 常见字符集介绍 标准ASCII字符集 GBK&#xff08;汉字内码扩展规范&#xff0c;国标&#xff09; Unicode字符集&#xff08;统一码&#xff0c;万国码&#xff09; 小结 字符集的编码、解码操作 方法 实例演示 常见字符集介绍 标准ASCII字符集 ASCll(American St…