港大、TikTok推出任意图像的深度估计大模型Depth Anything,致敬Segment Anything

目录

前言        

1.摘要

2.方法

3.实验结果

4.总结

前言        

        人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。

图片

        近日,TikTok发布一项新型AI技术“DepthAnything”,该技术由TikTok联合香港大学和浙江大学共同研发的一种先进单目深度估计(MDE)技术,能更有效地从2D图像中识别出深度信息图。基于这些深度信息图,普通的2D影像便可转化为3D影像。相比此前已有技术,“DepthAnything”在提升深度图的质量方面取得重大突破。此技术的应用将使得TikTok平台上现有的海量2D影像能够轻松转化为3D影像,让普通手机拍摄的2D影像“一键转3D”,或将大幅推进XR产业的发展。

图片

       Depth Anything模型的出现为机器人、自动驾驶、虚拟现实等领域带来了新的希望。这一模型的出现,让人们对单目深度估计问题的解决充满了信心。值得期待的是,这一模型未来在实际应用中能够取得更好的效果,为各行各业带来更多的便利。  

图片

论文:Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

单位:港大, TikTok, 之江实验室, 浙大

代码:https://github.com/LiheYoung/Depth-Anything

论文:https://arxiv.org/abs/2401.1089

1.摘要

        这项工作提出了 Depth Anything,这是一个非常实用的鲁棒单目深度估计解决方案。在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,以处理任何情况下的任何图像。为此,我们通过设计一个数据引擎来扩大数据集,以收集和自动标注大规模无标签数据(约62M),这显著扩大了数据覆盖范围,从而能够减少泛化误差。

图片

        文章研究了两种简单而有效的策略,使数据规模化有前途。首先,通过利用数据增强工具创建一个更具挑战性的优化目标。它迫使模型积极寻找额外的视觉知识并获得鲁棒的表示。其次,开发了一种辅助监督,以强制模型从预训练的编码器中继承丰富的语义先验。我们广泛评估了它的零样本能力,包括六个公共数据集和随机捕获的照片。它展示了令人印象深刻的泛化能力(图1)。此外,通过使用NYUv2和KITTI的度量深度信息对其进行微调,我们设置了新的SOTA。我们的更好的深度模型也导致了更好的深度条件控制网。

这篇论文的主要贡献包括:

  • 强调了大规模、低成本和多样化无标注图像的数据扩展对 MDE 价值。

  • 指出了在联合训练大规模有标注和无标注图像方面的一个重要实践方法:不是直接学习原始无标注图像,而是为模型提供更困难的优化目标,让其学会使用额外的知识。

  • 提出从预训练编码器继承丰富的语义先验,从而实现更好的场景理解,而不是使用辅助性语义分割任务。

  • 新模型的零样本能力超过 MiDaS-BEiT_L-512。不仅如此,使用度量深度进行微调后,新模型的表现更是显著超过 ZoeDepth。

2.方法

图片

        本文提出了一种利用带标签和未标记图像进行单目深度估计(MDE)的方法,称之为“Depth Anything”。方法包括以下步骤:

  • 学习带标签图像(Learning Labeled Images):通过使用来自六个公共数据集的1.5M带标签图像,采用与MiDaS相似的深度值变换和归一化方法,采用仿射不变损失进行多数据集联合训练,构建了一个师傅模型T。

  • 释放未标记图像的力量(Unleashing the Power of Unlabeled Images):与传统方法不同,该方法强调利用大规模未标记图像提高数据覆盖。通过利用互联网或各种任务的公共数据集,构建了一个多样化和大规模的未标记集。通过师傅模型T为未标记集生成伪标签,然后利用带标签图像和伪标签图像的组合,训练了一个学生模型S。在训练中,采用强烈的颜色和空间扭曲来激励学生模型主动寻求额外的视觉知识。

  • 语义辅助感知(Semantic-Assisted Perception):引入了辅助语义分割任务,通过为未标记图像分配语义分割标签,提供了高级语义相关信息。然而,为了更好地处理深度估计任务,采用了DINOv2模型在语义相关任务中的优秀性能,通过辅助特征对齐损失将其强大的语义能力转移到深度模型中。

        总的来说,本文方法通过联合利用带标签和未标记图像,充分利用大规模未标记数据的优势,通过深度模型的自我挑战和语义辅助感知,实现了更强大的单目深度估计性能。方法在多个数据集上进行了评估,并取得了令人满意的结果。

3.实验结果

        在六个公开数据集与随机拍摄图片上评估了Depth Anything模型的zero-shot能力;通过度量深度信息微调达成新的SOTA;更优的深度模型进而引申出更优的深度引导ControlNet。

图片

图片

图片

图片

图片

4.总结

        本研究引入了Depth Anything模型,该模型在稳健的单目深度估计方面展现了高度实用性。通过强调廉价且多样化的未标记图像的价值,并采用两种有效策略,即在学习未标记图像时设定更具挑战性的优化目标以及保留预训练模型的丰富语义先验,使得该模型在零样本深度估计方面表现出色。此外,该模型还可作为有望初始化下游度量深度估计和语义分割任务的有效工具。

图片

        感兴趣的小伙伴可以点击下面链接体验一下,感谢你看到这里,要不就顺便左下角再点个关注吧!一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion等相关技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/357798.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CXYGZL-程序员工作流:自定义流程打印模板,新增审批人类型

概述 我们的工作流引擎采用了低代码方式,借鉴了钉钉和飞书的设计思路,旨在降低用户的使用门槛。相比基于BPMN.js的工作流引擎,我们的解决方案更容易上手,一般用户也能在几分钟内搭建自己的工作流程。这样,非专业人员也…

vue中的vuex

在Windows的应用程序开发中,我们习惯了变量(对象)声明和使用方式,就是有全局和局部之分,定义好了全局变量(对象)以后在其他窗体中就可以使用,但是窗体之间的变量(对象&am…

神经调节的Hebbian学习用于完全测试时自适应

摘要 完全测试时自适应(Fully test-time adaptation)是指在推理阶段对输入样本进行序列分析,从而对网络模型进行自适应,以解决深度神经网络的跨域性能退化问题。我们从生物学合理性学习中获得灵感,其中神经元反应是基…

开发通用模板设计

文章目录 需求摘要1 模板描述2 模板内容介绍2.1 模块间依赖关系2.2 模板目前集成2.2.1 swaggerKnife4j2.2.1 nacosSpringBootSpringCloudAlibaba 3 项目地址4 FAQ 需求 目前在开发中,使用的非本人搭建的项目架子,存在如下问题: 依赖无法统一…

快速理解MoE模型

最近由于一些开源MoE模型的出现,带火了开源社区,为何?因为它开源了最有名气的GPT4的模型结构(OPEN AI),GPT4为何那么强大呢?看看MoE模型的你就知道了。 MoE模型结构: 图中&#xff0…

贪吃蛇游戏的实现

一.技术要点: 贪吃蛇需要掌握: c语言函数,枚举,结构体,动态内存管理,预处理指令,链表,Win32 API等 二.Win32 API 1.Win32 API简介 windows可以帮应用程序卡其视窗,描绘图案,使用周边设备,,Win32 API就是windows32位平台上的应用程序编程接口 2.控制台程序 (1).使用cmd命令…

如何在群晖中本地部署WPS Office并实现公网远程访问

文章目录 1. 拉取WPS Office镜像2. 运行WPS Office镜像容器3. 本地访问WPS Office4. 群晖安装Cpolar5. 配置WPS Office远程地址6. 远程访问WPS Office小结 7. 固定公网地址 wps-office是一个在Linux服务器上部署WPS Office的镜像。它基于WPS Office的Linux版本,通过…

最优化基础 - (最优化问题分类、凸集)

系统学习最优化理论 什么是最优化问题? 决策问题: (1)决策变量 (2)目标函数(一个或多个) (3)一个可由可行策略组成的集合(等式约束或者不等式约束…

【RT-DETR改进涨点】ResNet18、34、50、101等多个版本移植到ultralytics仓库(RT-DETR官方一比一移植)

👑欢迎大家订阅本专栏,一起学习RT-DETR👑 一、本文介绍 本文是本专栏的第一篇改进,我将RT-DETR官方版本中的ResNet18、ResNet34、ResNet50、ResNet101移植到ultralytics仓库,网上很多改进机制是将基础版本的也就是2015年发布的ResNet移植到ultralytics仓库中,但是其实…

2024.1.29 GNSS 学习笔记

1.假设只对4颗卫星进行观测定位,卫星的截止高度角是15,那么如何布设这四颗卫星的位置,使其围成的四面体的体积得到最大,以获得最好定位精度? 答:3颗卫星均匀分布在最低仰角面上,第4颗卫星在测站…

live2D学习:表情的制作和给角色添加动作

表情的制作和给角色添加动作https://www.bilibili.com/video/BV1JE411Y7Te?p3&vd_source124076d7d88eee393a1d8bf6fc787efa 先把眼睛以外的部件进行锁定,可以长按鼠标左键,然进行框选左边的锁的部分,快速进行操作。 锁定的部件就没有办…

力扣712. 两个字符串的最小ASCII删除和

动态规划 思路: 假设 dp[i][j] 是 s1 长度 i 和 s2 长度 j 两个字符串的最小 ASCII 删除和;dp[i][j] 可以由: 如果 s1 的第 i 个字符(s1[i - 1])和 s2 的第 j 个字符(s2[j - 1])不相等&#xf…

这么复杂的刻度标签怎么绘制?超简单~~

今天我们开始「粉丝要求绘图系列」的第一篇推文 ,这个系列我会筛选出需求较多的一类图进行绘制讲解,当然,绘图的数据我们尽可能的全部分享出来(即使涉及一些论文数据,我们也会根据情况进行虚构处理的),本期的推文重要涉…

如何让wordpress首页只显示某一篇文章全部内容?在您的主页显示选择

大多数WordPress站点首页默认都是显示最新发布的文章列表,不过有些站点比较特殊,只想显示某一篇文章的全部内容,那么应该怎么设置呢? 其实,WordPress后台 >> 设置 >> 阅读 >> 在“您的主页显示”中…

Java规则引擎:实现高效SQL变量数据处理的关键

SQL变量加工 SQL加工背景,在决策配置过程中,一些复杂的逻辑或模型可通过自定义SQL脚本编写创建数据变量,通过SQL脚本可以便捷的从数据库中取数,并且自定义SQL支持传参,可满足更复杂多变的数据加工处理。 注意&#x…

《统计学习方法:李航》笔记 从原理到实现(基于python)-- 第5章 决策树

文章目录 第5章 决策树5.1 决策树模型与学习5.1.1 决策树模型5.1.2 决策树与if-then规则5.1.3 决策树与条件概率分布5.1.4 决策树学习5.2 特征选择5.2.1 特征选择问题5.2.2 信息增益5.2.3 信息增益比5.3.1 ID3算法5.3.2 C4.5的生成算法5.4 决策树的剪枝5.5 CART算法5.5.1 CART生…

步进伺服控制芯片TMC4361

TMC4361A 数据手册 步进电机运动控制器,支持 S 型斜坡和 sixPoint 六点式斜坡,进行了高速优化,支持动态修改运动参数。TMC4361A 包含 SPI 接口、Step/Dir 接口及闭环所需的编码器接口。 特征  简单易用的与微处理器通讯的 SPI 接口。  与…

操作系统基础:处理机调度【上】

🌈个人主页:godspeed_lucip 🔥 系列专栏:OS从基础到进阶 1 处理机调度(上)1.1 基本概念1.1.1 总览1.1.2 什么是调度1.1.3 调度的三个层次1.1.4 七状态模型1.1.5 三层调度的联系与对比1.1.6 总结 1.2 方式与…

编写交互式 Shell 脚本

在日常的系统管理和自动化任务中,使用 Shell 脚本可以为我们节省大量时间和精力。 文章将以输入 IP 为例,通过几个版本逐步完善一个案例。 原始需求 编写一个交互式的 Shell 脚本,运行时让用户可以输入IP地址,并且脚本会将输入…

linux批量查询python进程,批量关闭

我使用bash脚本启动了一个多进程的python代码,但是由于遗忘的问题,查看队列发现进程还在,但是我并不是使用linux的screen后台启动的,启动的进程丢失了,找不到启动这个的主进程了。我想能不能通过查询python启动命令&am…