论文解读 | ScanNet:室内场景的丰富注释3D重建

原创 | 文 BFT机器人 

图片

大型的、有标记的数据集的可用性是为了利用做有监督的深度学习方法的一个关键要求。但是在RGB-D场景理解的背景下,可用的数据非常少,通常是当前的数据集覆盖了一小范围的场景视图,并且具有有限的语义注释。

为了解决这个问题,本文介绍了一个ScanNet的大规模室内场景3D重建和语义分割数据集。该数据集包含1513个室内场景的2.5M视角,具有3D相机姿态、表面重建和语义分割的注释。并且为了收集这些数据,设计了一个易于使用和可伸缩的RGB-D捕获系统,其中包括自动表面重建和众包语义注释。实验结果表明使用这些数据有助于在几个三维场景理解任务上实现最先进的性能,表现在三维对象分类、语义体素标记和CAD模型检索几个方面。

背景

BACKDROP

随着RGB-D传感器的引入以来,3D几何捕获领域获得了广泛的关注,并开辟了广泛的新应用。在三维重建算法上已经有了大量的努力,但利用RGB-D数据进行的一般三维场景理解最近才开始流行起来。随着现代机器学习方法的快速发展,如神经网络模型,也大大促进了对语义理解的研究。

本文建立了一个来帮助初学者获得语义标记的场景3D模型。人们使用安装有深度摄像头的iPad上的一个应用程序来获取RGB-D视频,然后后台离线处理数据,并返回一个完整的语义标记的场景3D重建。确实开发这样一个框架的挑战是众多的,包括如何稳健地执行三维表面重建,以及如何众包语义标记。对这些问题的研究,并记录了在扩大RGB-D扫描收集(20人)和注释(500名人群工作者)方面的经验。

图片

研究

STUDY

RGB-D重建和语义注释框架的概述。左图:一个新手用户使用一个手持RGB-D设备与我们的扫描界面来扫描一个环境。中间:RGB-D序列被上传到一个处理服务器,该服务器生成三维表面网格重建及其表面分割。右图为发布语义注释任务进行众包,获得实例级对象类别注释和三维CAD模型对齐重建。使用ScanNet提供的数据对三维深度网络进行了训练,并测试了它们在几个场景理解任务上的性能,包括三维对象分类、语义体素标记和CAD模型检索。对于语义体素标记任务,本文引入了一种新的体积CNN架构。

图片

在校准时,本文使用RGB-D传感器需要解除深度数据的扭曲和深度和颜色数据的对齐。先前的研究工作主要集中在具有更精确设备的控制实验室条件上,以告知商品传感器的校准。然而这对于新手用户来说是不实用的。因此,用户只需要打印出一个棋盘图案,将它放在一个大的、平坦的表面上,并捕获一个从近距离观察表面的RGB-D序列。这个序列,以及一组查看棋盘格的红外线和彩色帧对,由用户上传作为校准的输入,我们的系统运行一个校准程序,以获得深度和颜色传感器的内在参数,以及深度到颜色的外部转换。

我们发现,这种校准程序易于用户,结果改善数据,从而提高重建质量。本文研究选择了捆绑融合(BundleFusion)系统,因为它是设计和评估类似的传感器设置,并提供实时速度,同时相当稳健的给定手持RGBD视频数据。在验证过程时候,当扫描上传到处理服务器并在无监督下运行时,将自动触发此重建过程。为了建立一个干净的快照来构建本文报道的ScanNet数据集,自动丢弃了较短、残差重建误差高或对齐帧比例低的扫描序列。然后我们手动检查和丢弃有明显失调的重建。

图片

结论

CONCLUSION

文中还讨论了如何在可扩展的流水线中进行3D表面重建和如何进行众包语义标注的问题,并介绍了使用ScanNet数据进行3D场景理解任务的最新技术和结果。文章中在可扩展的流水线中使用一种新的体积卷积神经网络架构,用于解决语义体素标注任务。结果表明,使用ScanNet数据可以获得比现有数据集更好的性能,这证明了ScanNet数据集的重要性和实用性,该数据集还包括纹理网格、密集的物体级别语义分割和对齐的CAD模型。3D模型是使用RGB-D捕捉系统重建的,其中包括自动表面重建和众包语义注释。

语义分割比任何先前的RGB-D数据集都要大一个数量级。模型使用估计的校准参数、相机姿态、3D表面重建、纹理网格、密集的物体级别语义分割和对齐的CAD模型进行注释。这使得ScanNet成为场景理解研究的宝贵资源。。此外还提供了新的RGB-D基准和改进的结果,这些结果可以用于3D对象分类、语义体素标注和CAD模型检索等场景理解任务。

作者 | ZZY

排版 | 春花

审核 | 猫

若您对该文章内容有任何疑问,请于我们联系,将及时回应。如果想要了解更多的前沿资讯,记得点赞关注哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/93804.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据仓库一分钟

简介 数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集,从逻辑上讲数据仓库和数据…

Midjourney API 的对接和使用

“ 阅读本文大概需要 4 分钟。 ” 在人工智能绘图领域,想必大家听说过 Midjourney 的大名吧。 Midjourney 以其出色的绘图能力在业界独树一帜。无需过多复杂的操作,只要简单输入绘图指令,这个神奇的工具就能在瞬间为我们呈现出对应的图像。无…

Git企业开发控制理论和实操-从入门到深入(七)|企业级开发模型

前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助。 高质量博客汇总 然后就是博主最近最花时间的一个专栏…

8.7.tensorRT高级(3)封装系列-调试方法、思想讨论

目录 前言1. 模型调试技巧总结 前言 杜老师推出的 tensorRT从零起步高性能部署 课程,之前有看过一遍,但是没有做笔记,很多东西也忘了。这次重新撸一遍,顺便记记笔记。 本次课程学习 tensorRT 高级-调试方法、思想讨论 课程大纲可看…

知虾shopee数据分析工具:shopee出单的商机利器

当今数字化时代,数据已经成为商业成功的关键要素之一。而Shopee作为东南亚最大的电商平台之一,其强大的数据分析工具正为商家提供了宝贵的市场洞察和决策支持。本文将深入探讨Shopee数据分析工具如何帮助商家抓住商机并取得成功。 洞察消费者需求&#x…

P21~22 第六章 储能元件——电容存储电场能,电感存储磁场能

1、电容元件 a定义 b线性时不变电容元件 c电容的电压与电流关系 i有限则u有限 注意理解面积 d电容的功率和储能 e例一 跃变就是指物体的物理量从有限值变为无限值的过程。 分析上图例题:对于电源波形要吃负无穷到正无穷去刻画。即时间轴要铺满。 有有图控制电…

sql:SQL优化知识点记录(四)

(1)explain之ref介绍 type下的ref是非唯一性索引扫描具体的一个值 ref属性 例如:ti表先加载,const是常量 t1.other_column是个t1表常量 test.t1.ID:test库t1表的ID字段 t1表引用了shared库的t2表的col1字段&#x…

python可视化matplotlib——绘制正弦和余弦

这是一个使用matplotlib库绘制正弦和余弦函数曲线的代码示例。代码中导入了需要的库,并设置了x轴和y轴的标签字体为华文楷体。然后,使用numpy生成一组x轴上的值t,并使用正弦函数生成对应的y轴值s,再使用余弦函数生成对应的y轴值z。…

Java学数据结构(1)——抽象数据类型ADT 表List、栈Stack和队列Qeue

目录 引出抽象数据类型(abstract data type,ADT)表ListArrayList,Vector, LinkedListArrayList手动实现与分析Vector的分析(线程安全)LinkedList 的手动实现与分析 栈stack—后进先出java中stack源码分析栈的应用:检查…

创邻科技张晨:图数据库,激活数据要素的新基建

“数据经济时代,数据要素产业链的各细分领域均蕴含机遇,图技术作为网络协同和数据智能的底层发动机,将深度掘金数字中国价值潜能”。 8月22日,在2023中国(南京)国际软件产品和信息服务交易博览会的信息技术…

Day48|leetcode 198.打家劫舍、213.打家劫舍II、打家劫舍|||

leetcode 198.打家劫舍 题目链接:198. 打家劫舍 - 力扣(LeetCode) 视频链接:动态规划,偷不偷这个房间呢?| LeetCode:198.打家劫舍_哔哩哔哩_bilibili 题目概述 你是一个专业的小偷,…

【Android】TextView适配文本大小并保证中英文内容均在指定的UI 组件内部

问题 现在有一个需求&#xff0c;在中文环境下textView没有超过底层的组件限制&#xff0c;但是一切换到英文环境就超出了&#xff0c;这个如何解决呢&#xff1f;有啥例子吗&#xff1f; 就像这样子的。 解决 全部代码如下&#xff1a; <?xml version"1.0"…

汽车电子笔记之:AUTOSAR方法论及基础概念

目录 1、AUTOSAR方法论 2、AUTOSAR的BSW 2.1、MCAL 2.2、ECU抽象层 2.3、服务层 2.4、复杂驱动 3、AUTOSAR的RTE 4、AUTOSAR的应用层 4.1、SWC 4.2、AUTOSAR的通信 4.3、AUTOSAR软件接口 1、AUTOSAR方法论 AUTOSAR为汽车电子软件系统开发过程定义了一套通用的技术方法…

腾讯云coding平台平台inda目录遍历漏洞复现

前言 其实就是一个python的库可以遍历到&#xff0c;并不能遍历到别的路径下&#xff0c;后续可利用性不大&#xff0c;并且目前这个平台私有部署量不多&#xff0c;大多都是用腾讯云在线部署的。 CODING DevOps 是面向软件研发团队的一站式研发协作管理平台&#xff0c;提供…

基于Ubuntu坏境下的Suricata坏境搭建

目录 Suricata环境安装 第一步、在 Ubuntu 端点安装 Suricata 1、加入Suricata源 2、更新安装包 3、下载SuricataSuricata 第二步、下载并提取新兴威胁 Suricata 规则集 1、在tmp文件夹下载 Suricata 规则集 如果发现未安装curl&#xff0c;使用apt安装即可&#xff1a;…

QT 消息对话框按钮显示

前言 搞QT嘛&#xff0c;大多数都是军工。都要国产化&#xff0c;而且消息对话框的按钮的英文也不是很得劲&#xff0c;所以需要汉化。使用静态函数的按钮就是显示英文&#xff0c;汉化的代码如下。 void Widget::on_pushButton_clicked() {QMessageBox box(QMessageBox::Inf…

MySQL 条件查询 Emoji 表情符号却返回多条数据【包含其它表情符号】的问题解决 - COLLATION 字符序的选择

1、问题出现 在APP客户端输入搜索文章的关键字时&#xff0c;不小心输入来了一个 emoji 表情符号&#xff0c;提示出错了&#xff0c;在后台查询错误日志信息&#xff0c;提示查询出现了2条相同的记录&#xff1a; Caused by: org.hibernate.NonUniqueResultException: query …

LNMT与动静分离

目录 一、LNMT 一、部署tomcat 二、部署nginx 三、部署mariadb 四、配置nginx 二、操作流程及步骤 一、在第一台机器上进入 vim /etc/nginx/nginx.conf 更改配置文件 二、并查看端口是否成功启动 三、验证 四、再次来到网页验证 五、动静分离&#xff08;修改配置…

HTTP 框架修炼之道 | 青训营

Powered by:NEFU AB-IN 文章目录 HTTP 框架修炼之道 | 青训营 走进 HTTP 协议HTTP 框架的设计与实现应用层中间件层路由设计协议层 传输层&#xff08;网络层&#xff09;1. BIO&#xff08;Blocking I/O&#xff09;:2. NIO&#xff08;Non-blocking I/O&#xff09;:区别&…

设计模式入门笔记

1 设计模式简介 在IT这个行业&#xff0c;技术日新月异&#xff0c;可能你今年刚弄懂一个编程框架&#xff0c;明年它就不流行了。 然而即使在易变的IT世界也有很多几乎不变的知识&#xff0c;他们晦涩而重要&#xff0c;默默的将程序员划分为卓越与平庸两类。比如说&#xff…