字节发布Depth Anything V2深度模型,比 Depth Anything V1 更精细的细节。

欢迎点击关注下方公众号并加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高(快了10倍以上)且更准确。提供了不同规模的模型(参数从25M到1.3B不等),以支持各种应用场景。分别针对室内和室外场景发布了三个尺度的 六种度量深度模型。

通过三个关键实践产生了更精细和更鲁棒的深度预测:

  1. 用合成图像取代所有标注的真实图像,

  2. 扩大教师模型的容量,

  3. 通过大规模伪标注的真实图像作为桥梁来教授学生模型。

Depth Anything V2基于595K张合成标记图像和62M+张真实未标记图像进行训练,提供最强大的单目深度估计(MDE)模型。

相关链接

论文地址:https://arxiv.org/abs/2406.09414

代码地址:https://github.com/DepthAnything/Depth-Anything-V2

试用链接:https://huggingface.co/spaces/Depth-Anything/Depth-Anything-V2

论文阅读

摘要

这项工作提出了 Depth Anything V2。我们不追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,此版本通过三个关键实践产生了更精细、更稳健的深度预测:

  • 用合成图像替换所有标记的真实图像;

  • 扩大我们的教师模型的容量

  • 通过大规模伪标记真实图像的桥梁教授学生模型。

与基于稳定扩散构建的最新模型相比,我们的模型效率更高(速度快 10 倍以上)且更准确。我们提供不同规模的模型(从 25M 到 1.3B 参数不等)以支持广泛的场景。得益于它们强大的泛化能力,我们使用度量深度标签对它们进行微调以获得我们的度量深度模型。除了我们的模型之外,考虑到当前测试集中的多样性有限和频繁的噪声,我们构建了一个具有稀疏深度注释的通用评估基准,以方便未来的研究。

方法

我们首先在纯合成图像上 训练一个初始的最大教师模型(基于 DINOv2-Giant)。然后,它为大规模未标记的真实图像生成高质量的伪标签。最后,仅在伪标记的真实图像上训练学生模型。

效果展示

与Depth Anything V1在细粒度细节上的比较

与 Depth Anything V1 的稳健性比较

与 Marigold 和 Geowizard 的比较

视频深度可视化

注意: Depth Anything V2是一种基于图像的深度估计方法,我们使用视频只是为了更好地展示我们的优势。

数据覆盖范围

我们使用595K张合成图像来训练初始最大的教师模型,并使用62M+张真实伪标记图像来训练最终的学生模型。

结论

在这项工作中,我们提出了 Depth Anything V2,这是一种更强大的单目深度估计基础模型。它能够

  • 提供稳健且细粒度的深度预测;

  • 支持具有各种模型大小(从 25M 到 1.3B 参数)的广泛应用

  • 作为一种有前途的模型初始化,可以轻松微调到下游任务。

我们揭示了关键的发现,为构建强大的 MDE 模型铺平了道路。此外,考虑到现有测试集中的多样性较差和噪声丰富,我们构建了一个多功能评估基准 DA-2K,涵盖了具有精确且具有挑战性的稀疏深度标签的各种高分辨率图像。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/747021.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

d3dx9_42.dll找不到怎么正确处理?教学级修复d3dx9_42.dll的方法分享

d3dx9_42.dll找不到?别着急,这只是普普通通的dll文件找不到而已,它可能因为各种原因而导致丢失,我们只要直接对d3dx9_42.dll进行修复就可以了。下面我们一起来了解一下d3dx9_42.dll找不到的正确处理方法。 一.d3dx9_42.dll找不到是…

Gitlab合并代码并解决冲突演示

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

【ARM Trace32(劳特巴赫) 使用介绍 2.7 -- bat 脚本传参数给 trace32 cmm 脚本】

请阅读【Trace32 ARM 专栏导读】 文章目录 bat 脚本传参数给 trace32脚本可变参数传入CMM 脚本接收参数运行BAT脚本bat 脚本传参数给 trace32脚本 在使用 Trace32 的过程中,如果每次都是通过GUI 界面来操作,是习惯使用命令行工作的人所不能忍受的!!!,那么能不同通过脚本…

Interview preparation--elasticSearch倒排索引原理

搜索引擎应该具备哪些要求 查询速度快 优秀的索引结构设计高效率的压缩算法快速的编码和解码速度 结果准确 ElasiticSearch 中7.0 版本之后默认使用BM25 评分算法ElasticSearch 中 7.0 版本之前使用 TP-IDF算法 倒排索引原理 当我们有如下列表数据信息,并且系统…

2-17 基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析

基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析。根据交通流量以及饱和流量,对城市道路交叉口交通信号灯实施合理优化控制,考虑到交通状况的动态变化,及每个交叉口的唯一性。通过实时监测交通流量&#xff0c…

print()函数——打印输出

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 print()函数是Python编程最常见的函数,常用于输出程序结果,默认输出到屏幕,也可以输出到指定文件。 语法参考 pr…

ctfshow 新春欢乐赛 web

web1 <?phphighlight_file(__FILE__); error_reporting(0);$content $_GET[content]; file_put_contents($content,<?php exit();.$content);?contentphp://filter/string.rot13|<?cuc flfgrz(yf /);?>|/resourceshell.php绕过死亡exit 但是我发现个问题就是…

qt for android 工程添加AndroidManifest.xml 文件

1.选择左边图形栏目中的Projects&#xff0c;在Build steps下的Build Android APK中Details 2.点击Create Templates&#xff0c;并勾选 此时在工程下面会多出一个文件夹android 3.将这个android的中所有文件加入工程中&#xff0c;编辑.pro 4.通过QT 图形化编辑设置属性&#…

HTML+JS实现一个百战天虫类页面游戏(1)

1.背景 某年某月某日&#xff0c;为了测试某Android设备&#xff08;某运营商的机顶盒&#xff09;系统对于HTML、JS和CSS的支持能力和性能&#xff0c;等待结果时做了这么个页面游戏。 这个设备情况很糟糕&#xff0c;不支持css3&#xff0c;html5&#xff0c;不支持gif&…

JUC 队列

常见的阻塞队列 Queue接口 public interface Queue<E> extends Collection<E> {//添加一个元素&#xff0c;添加成功返回true, 如果队列满了&#xff0c;就会抛出异常boolean add(E e);//添加一个元素&#xff0c;添加成功返回true, 如果队列满了&#xff0c;返回…

理解论文笔记:基于AHP和模糊综合评价的无线传感器网络可维护性评估方法

作为一个研0的娃,这是我认真读的第一篇论文,想着笔记让自己能看懂。如有侵权,请联系删除。 I. INTRODUCTION 介绍 主要介绍了无线传感器网络可维护性研究的重要性和必要性,并对下面的各章进行了总结。 翻译:第二部分简要介绍了无线传感器网络的维护,并对影响系统的因素…

面向对象修炼手册(四)(多态与空间分配)(Java宝典)

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;面向对象修炼手册 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录 前言 1 多态 1.1 多态的形式&…

indexedDB---浏览器本地数据库实现增删改查

关于indexedDB indexedDB的基本使用&#xff0c;可以参考&#xff1a;indexedDB---掌握浏览器内建数据库的基本用法_indexdb浏览器使用-CSDN博客 indexedDB是浏览器本地数据库&#xff0c;既然是数据库就能够实现增删改查&#xff0c;了解了indexedDB的基本使用后&#xff0c…

南信大尹志聪教授为一作在顶级综合性期刊《Natl. Sci. Rev.》发文:传统梅雨停摆,江南缘何不再多烟雨?

文章简介 论文名称&#xff1a;Traditional Meiyu–Baiu has been suspended by global warming 第一作者及单位&#xff1a;尹志聪(教授|南京信息工程大学大气科学学院) 通讯作者及单位&#xff1a;王会军&#xff08;院士|南京信息工程大学大气科学学院&#xff09; 文章发…

茴香豆接入微信个人助手部署

将rag产品接入微信工作群&#xff0c;自动回答问题&#xff0c;香吗&#xff1f;&#xff1f; let‘s go 1、打开openxlab平台&#xff0c;找到茴香豆web产品应用中心-OpenXLab 点击进入&#xff0c;设置知识库名字和密码 2、上传知识库文件和编辑正反例等 3、然后进行测试问答…

探索 LLamaWorker:基于LLamaSharp的.NET本地大模型服务

LLamaWorker 是一个基于 LLamaSharp 项目开发的 HTTP API 服务器。它提供与 OpenAI 兼容的 API&#xff0c;使得开发者可以轻松地将大型语言模型&#xff08;LLM&#xff09;集成到自己的应用程序中。 1. 背景 在人工智能领域&#xff0c;大型语言模型&#xff08;LLM&#xf…

Ruby langchainrb gem and custom configuration for the model setup

题意&#xff1a;Ruby 的 langchainrb gem 以及针对模型设置的自定义配置 问题背景&#xff1a; I am working in a prototype using the gem langchainrb. I am using the module assistant module to implemente a basic RAG architecture. 我正在使用 langchainrb 这个 ge…

如何创建一个vue项目

目录 1.环境准备 2.检查node和npm版本&#xff0c;确定已安装nodejs 3.全局安装vue/cli、webpack、webpack-cli、vue/cli-init 4.检查vue版本,注意V是大写 5.创建vue项目 6.得到的vue项目目录结构如下&#xff1a; 1.环境准备 安装nodejs,或者安装nvm&#xff0c;并使用…

基于盲信号处理的人声分离

1.问题描述 在实际生活中&#xff0c;存在一种基本现象称为“鸡尾酒效应”&#xff0c;该效应指即使在非常嘈杂的环境中&#xff0c;人依然可以从噪声中提取出自己所感兴趣的声音。 在实际应用中&#xff0c;我们可能需要对混合的声音进行分离&#xff0c;此时已知的只有混合…

java的字节符输出流基类、File Writer类和Buffered Writer类

一、字节符输出流基类&#xff1a;Writer 1.属于抽象类 2.常用方法 二、字节符输出流Flie Writer类 1.是writer类的子类 2.以字符为数据处理单元向文本文件中写数据 3.示例 4.实现步骤 三、BufferedWriter类 1.是Writer类的子类。 2.带有缓冲区 默认情况下&#xff0c…