英伟达发布AM-RADIO高效视觉基础模型,推理速度提升6倍,性能超CLIP、DINOv2、SAM

前言

近年来,视觉基础模型 (VFM) 在众多下游任务中取得了巨大成功,例如图像分类、目标检测和图像生成等。然而,现有的 VFM 通常专注于特定领域,例如 CLIP 擅长零样本视觉语言理解,DINOv2 擅长语义分割,SAM 擅长开放词汇实例分割,并且计算成本高昂。为了解决这些问题,英伟达的研究人员开发了 AM-RADIO (Agglomerative Model – Reduce All Domains Into One),这是一个高效的 VFM,它通过多教师蒸馏技术将多个预训练的 VFM(如 CLIP、DINOv2 和 SAM)的知识融合到一个统一的模型中,在一个模型中聚合了多个 VFM 的独特特性,实现了“集多家之所长”。

  • Huggingface模型下载:https://huggingface.co/nvidia/RADIO

  • AI快站模型免费加速下载:https://aifasthub.com/models/nvidia

技术特点
多教师蒸馏

AM-RADIO 的核心技术是多教师蒸馏。简单来说,该技术将多个“教师”模型的知识转移到一个“学生”模型中,使学生模型能够学习到多个教师模型的优势。在 AM-RADIO 中,研究人员选择了 CLIP、DINOv2 和 SAM 作为教师模型,因为它们在各自的领域表现出色:

  • CLIP: 擅长零样本视觉语言理解,在 LAION-400M 等大型数据集上进行训练,能够将图像和文本映射到同一特征空间,实现跨模态理解。

  • DINOv2: 在需要精细空间特征的密集任务(如语义分割)上表现出色。它使用自监督学习方法,通过最大化同一图像的不同视图之间的特征一致性来学习图像特征。

  • SAM: 拥有出色的开放词汇实例分割能力。它可以根据用户提供的提示(如点、框或文本)分割图像中的任何对象。

AM-RADIO 的多教师蒸馏框架包括以下步骤:

  1. 输入图像: 将图像输入到所有教师模型和学生模型中。

  2. 特征提取: 每个教师模型都提取图像的特征,包括汇总特征向量和空间特征向量。

  3. 适配器头: 学生模型使用适配器头将自身的特征映射到每个教师模型的特征空间。

  4. 特征匹配: 使用余弦相似度和 smooth L1 损失函数来最小化学生模型和每个教师模型之间的特征差异。

通过多教师蒸馏,AM-RADIO 成功地将这些教师模型的独特属性融合到一个统一的模型中,使其能够在多个任务上表现出色。

高效模型架构 E-RADIO

为了进一步提高模型效率,AM-RADIO 还提出了一种新的混合架构 E-RADIO,该架构结合了 CNN 和 Transformer 的优势,在保证模型性能的同时,显著提高了推理速度。E-RADIO 的主要特点包括:

  • 多尺度输入: 为了匹配不同教师模型的输入分辨率,E-RADIO 采用了多尺度输入策略,例如使用 432x432 分辨率匹配 CLIP 和 DINOv2,使用 1024x1024 分辨率匹配 SAM。

  • 多尺度特征: E-RADIO 利用 CNN 的优势,在模型的早期阶段快速降低特征图分辨率,并在后期阶段使用 Transformer 进行全局信息整合。

  • 多分辨率注意力: E-RADIO 采用了多分辨率注意力机制,允许模型在不同分辨率下进行特征交互,从而更好地捕捉图像的细节信息。

训练数据集

AM-RADIO 使用 DataComp-1B 数据集进行训练,这是一个包含 10 亿张图像的大规模数据集,涵盖了各种主题和场景。与 ImageNet 等更小、更单一的数据集相比,DataComp-1B 能够提供更丰富的图像信息,帮助 AM-RADIO 学习更通用的视觉特征。

性能表现

AM-RADIO 在多个基准测试中展现出优异的性能,全面超越了其教师模型:

  • ImageNet 分类: 在 ImageNet-1K 数据集上,AM-RADIO 的 k-NN Top-1 准确率达到 86.06%,零样本准确率达到 82.93%,均优于所有教师模型。

  • 语义分割: 在 ADE20K 和 Pascal VOC 数据集上,AM-RADIO 的线性探针语义分割 mIoU 分别为 51.34% 和 84.71%,显著高于其他模型,表明其在密集预测任务上的强大能力。

  • 大型视觉语言模型: 将 AM-RADIO 作为视觉编码器集成到 LLaVA-1.5 中,在 GQA、TextVQA、POPE 和 VQAv2 等任务上取得了最佳成绩,证明了其在视觉语言理解方面的优势。

  • SAM-COCO 实例分割: AM-RADIO 能够替代 SAM 的视觉编码器,在 COCO 实例分割任务上取得了 76.23% 的 mIoU,与 SAM 的性能相当,说明 AM-RADIO 成功地学习了 SAM 的开放词汇实例分割能力。

  • 推理速度: 相比于教师模型,AM-RADIO 的推理速度提升高达 6 倍,这得益于其高效的模型架构 E-RADIO。

应用场景

AM-RADIO 凭借其强大的性能和高效的推理速度,在各种应用场景中具有巨大潜力:

  • 图像理解: AM-RADIO 能够用于图像分类、目标检测、语义分割等任务,帮助人们更好地理解图像内容。

  • 视觉问答: AM-RADIO 可以作为视觉编码器集成到大型视觉语言模型中,用于回答与图像相关的问题。

  • 机器人视觉: AM-RADIO 可以为机器人提供强大的视觉感知能力,使其能够更好地理解周围环境。

  • 内容创作: AM-RADIO 可以用于生成高质量的图像描述,辅助内容创作者进行创作。

总结

AM-RADIO 是一种高效且强大的视觉基础模型,通过多教师蒸馏技术融合了多个预训练模型的优势,并在多个基准测试中取得了最佳成绩。其高效的模型架构 E-RADIO 使其能够以更快的速度进行推理,使其在各种应用场景中都具有巨大的潜力。相信 AM-RADIO 将推动视觉基础模型的发展,为人工智能应用带来更多可能性。

模型下载

Huggingface模型下载

https://huggingface.co/nvidia/RADIO

AI快站模型免费加速下载

https://aifasthub.com/models/nvidia

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/619508.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何在外网访问内网共享文件?

在日常工作和生活中,我们经常会遇到外网访问内网共享文件的需求。我们可能需要远程访问公司内部的共享文件夹,或者与不同地区的合作伙伴共享文件。由于网络安全的限制,外网访问内网的共享文件并不是一件容易的事情。 为了解决这个问题&#x…

matlab使用教程(70)—修改坐标区属性

1.控制坐标轴长度比率和数据单位长度 您可以控制 x 轴、y 轴和 z 轴的相对长度(图框纵横比),也可以控制一个数据单位沿每个轴的相对长度(数据纵横比)。 1.1图框纵横比 图框纵横比是 x 轴、y 轴和 z 轴的相对长度。默认…

C++ | Leetcode C++题解之第86题分隔链表

题目: 题解: class Solution { public:ListNode* partition(ListNode* head, int x) {ListNode* small new ListNode(0);ListNode* smallHead small;ListNode* large new ListNode(0);ListNode* largeHead large;while (head ! nullptr) {if (head-…

前端小技巧:如何自定义网页的右键菜单(如何禁用网页的右键菜单)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 右键菜单设置 📒📝 自定义右键菜单实现步骤📝 示例代码📝 涉及的JavaScript语法和参数📝 禁用特定区域的右键菜单⚓️ 相关链接 ⚓️📖 介绍 📖 在网页设计中,一个直观且个性化的右键菜单可以显著提升用户的交互…

WPS表格:对比少于1万的两列数据

当我们需要对于A、B两列乱序的数据,找出A列中某一项B列有没有,或者找出B列中的某一项A列有没有,都可以先将这两列数据放入WPS表格中: 1.选中C列的第一行的单元格,在函数区输入函数 如果我们以A为基准,找A中…

HR4988内置转换器和过流保护的微特步进电机驱动芯片

描述 HR4988是一款内部集成了译码器的微特步进电机驱动器,能使双极步进电机以全、半、1/4、1/8、1/16步进模式工作。步进模式由逻辑输入管脚MSx选择。其输出驱动能力达到32V和2A。 译码器是HR4988易于使用的关键。通过STEP管脚输入一个脉冲就可以使电机完成一次步进…

软件工程期末复习(4)

软件过程 软件过程是为了获得高质量软件所需要完成的一系列任务的框架,它规定了完成各项任务的工作步骤。 ISO 9000对过程的定义: 使用资源将输入转化为输出的活动所构成的系统。 瀑布模型: 瀑布模型的特点: 阶段间具有顺序性和依赖性 必须…

Docker和Kubernetes之间的关系

Docker和Kubernetes在容器化生态系统中各自扮演着不同的角色 它们之间是互补的,而不是替代关系。 Docker是一个开源的容器化平台,它允许开发人员将应用程序及其依赖项打包到一个可移植的容器中,并确保这些容器可以在任何Docker环境中一致地…

Embedding技术学习

可能很多人并没有关注Embedding技术,但实际上它是GPT非常重要的基础,准备的说,它是GPT模型中理解语言/语义的基础。 【解释什么是Embedding】 对于客观世界,人类通过各种文化产品来表达,比如:语言&#x…

GIAT: 蛋白质结构预测的新利器

瑞典Karolinska研究院在瑞典政府赞助下由Ben Murrell等研究团队在AlphaFold 3最新报告后提出这篇论文提出了一种非常有趣和创新的方法来生成蛋白质骨架结构,称为生成式不变角度转换器(GIAT)。与现有的主要基于扩散模型和流匹配的方法不同,GIAT采用了类似于大型语言模型(如GPT)中…

06-Fortran基础--Fortran模块化编程

06-Fortran基础--Fortran模块化编程 1 模块的定义和使用2 接口和模块间通信3 模块化编程的优势:4 模块使用示例5 结语 Fortran的模块化编程是一种组织和管理代码的方法,它包括模块的定义和使用、接口和模块间通信以及模块化编程的优势。 1 模块的定义和…

【35分钟掌握金融风控策略24】定额策略实战

目录 基于客户风险评级的定额策略 确定托底额度和盖帽额度 确定基础额度 基于客户风险评级确定风险系数 计算最终授信额度 确定授信有效期 基于客户风险评级的定额策略 在开发定额策略时,精准确定客户的基础额度是一个关键步骤,通常会基于客户的收…

基于地平线J6E,「吃蟹者」易航智能重塑高速NOA

作者 |张祥威 编辑 |德新 一批基于地平线J6E的智驾方案将要到来,高速NOA领域很快会变天。 易航智能是这批智驾方案公司中的一家。 近日在北京车展,这家公司推出一套基于地平线J6 E的7V1R方案,可以实现城市记忆领航、高速NOA、记忆泊车、L2…

数据结构---经典链表OJ

乐观学习,乐观生活,才能不断前进啊!!! 我的主页:optimistic_chen 我的专栏:c语言 点击主页:optimistic_chen和专栏:c语言, 创作不易,大佬们点赞鼓…

C++八股(面试题、手撕题)自用版

目录 面试题: 1. define inline 在编译的哪个阶段 2. const static 3. 子函数返回结构体有什么问题,返回对象调用了哪些函数 4. volatile关键字 5. 编译器基本原理 6. 预处理、编译、汇编、链接以及他们在操作系统上如何运作的 7. 数组和指针&a…

19、案例实战:上亿请求轻松应对,老年代垃圾回收参数调整技巧大公开

19.1、前文回顾 在上一篇文章中,我们已经向大家介绍了一个日活跃用户百万级别,处理请求量上亿的电商系统案例。我们选择了这个中型电商系统在大促期间的瞬时高峰下单场景,作为我们的JVM优化分析的场景。通过预测,我们得出在大促高峰期,每台机器每秒需要处理300个订单请求…

LINUX 入门 7

LINUX 入门 7 day10 20240506 耗时:59min day11 20240507 耗时:106min 课程链接地址 第7章 http客户端请求 1 http项目介绍与Http协议讲解 先去看一遍教程 扫一遍,不用完全一行行读 ctrlshiftI调出来网页调试台——network——img 过…

PC的体系结构

冯诺依曼体系结构 冯诺依曼体系结构,也称为冯诺依曼架构,是一种计算机架构的设计概念,由20世纪中叶的数学家和物理学家约翰冯诺依曼提出。这种架构的核心特点是将程序指令和数据存储在同一块可读写的存储器中。这样做的优点是简化了计算机的…

web前端之纯CSS实现简单酷炫的照片墙效果、排除元素的伪类、scale

MENU 效果htmlstylescale:not() 效果 html <div class"container"><div class"box"><img src"../../image/1_.jpg"></div><div class"box"><img src"../../image/2_.jpg"></div>…

AI办公自动化-用kimi把PDF文档按照章节自动拆分成多个docx文档

一个PDF文档很长&#xff0c;希望按照章节分拆成小文档。 可以在kimichat中输入提示词&#xff1a; 你是一个Python编程专家&#xff0c;要完成一个编写拆分PDF文档的Python脚本的任务&#xff0c;具体步骤如下&#xff1a; 打开文件夹&#xff1a;D:\chatgpt图书\图书1&…