【深度学习:视觉基础模型】视觉基础模型 (VFM) 解释

在这里插入图片描述

【深度学习:视觉基础模型】视觉基础模型 VFM 解释

    • 了解视觉基础模型
      • 从 CNN 到 Transformer 的演变
      • 自我监督和适应能力
    • 流行的视觉基础模型
      • DINO(自蒸馏,无标签)
      • SAM(分段任意模型)
      • SegGPT
      • Microsoft's Visual ChatGPT
    • 视觉基础模型的应用
    • 视觉基础模型的好处
    • 可视化基础模型的挑战与考虑因素
      • 解决视觉人工智能中与伦理、公平和偏见相关的问题
      • 保护隐私、合规性和数据安全
      • 成本管理
    • 微调可视化基础模型
      • 微调视觉模型的步骤
      • 处理不平衡数据集和变异性的策略
    • 未来趋势与展望
    • Visual Foundation 模型 — 迈向 AGI 的一步
    • Visual Foundation 模型:关键要点

据雅虎财经称,计算机视觉(CV)市场正在飙升,预计年增长率为 19.5%。到 2023 年,预计其价值将达到 1004 亿美元,而 2022 年为 169 亿美元。这一增长很大程度上归功于视觉基础模型 (VFM) 的开发,该模型旨在理解和处理视觉数据的复杂性。

VFM 在各种 CV 任务中表现出色,包括图像生成、对象检测、语义分割、文本到图像生成、医学成像等。它们的准确性、速度和效率使其在企业规模上非常有用。

本指南概述了 VFM,并讨论了几种可用的重要模型。我们将列出它们的优点和应用,并重点介绍 VFM 的突出微调技术。

了解视觉基础模型

基础模型是通用的大规模人工智能 (AI) 模型,组织用它来构建下游应用程序,特别是在生成式 AI 领域。例如,在自然语言处理 (NLP) 领域,BERT、GPT-3、GPT-4 和 MPT-30B 等大型语言模型 (LLM) 是基础模型,使企业能够构建定制的聊天或语言系统特定任务并能够理解人类语言以增强客户参与度。

视觉基础模型是执行图像生成任务的基础模型。 VFM 通常包含大型语言模型的组件,以便使用基于文本的输入提示生成图像。它们需要适当的即时工程来实现高质量的图像生成结果。专有和开源 VFM 的一些著名示例包括 Stable Diffusion、Florence、Pix-2-Pix、DALL-E 等。这些模型在巨大的数据集上进行训练,使它们能够理解视觉中复杂的特征、模式和表示。数据。他们使用专注于处理视觉信息的各种架构和技术,使它们能够适应许多用例。

从 CNN 到 Transformer 的演变

传统上,计算机视觉模型使用卷积神经网络(CNN)来提取相关特征。 CNN 一次专注于图像的一部分,使它们能够在推理时有效地区分对象、边缘和纹理。

2017 年,一篇题为“Attention is All You Need”的研究论文通过引入一种新的机器学习架构来构建有效的语言模型,改变了 NLP 的格局。该架构采用文本序列并生成文本序列作为输入输出格式。其关键组件是注意力机制,它使模型能够专注于文本序列的基本部分。总体而言,Transformer 可以更好地理解较长的文本,并提供更高的速度和准确性。Transformer 架构催生了我们今天所知的基础 LLM。

尽管注意力机制最初是针对语言格式的,但研究人员很快就看到了它在计算机视觉应用中的潜力。 2020 年,一篇题为“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”的研究论文展示了 Transformers 算法如何将图像转换为矢量化嵌入,并使用自注意力机制让模型理解图像片段之间的关系。生成的模型称为视觉变换器 (ViT)。

在这里插入图片描述
如今,ViT 被用来为许多 VFM 提供动力。此外,GPU 的日益普及使得处理视觉数据和执行大规模生成式 AI 工作负载变得更加容易。因此,不同VFM的开发和部署变得更加可行。

自我监督和适应能力

许多视觉基础模型使用自我监督技术来从未标记的数据中学习。与所有数据点都必须有标签的监督学习不同,自监督技术可以通过未标记的数据点进行模型训练。这使得企业能够快速调整它们以适应特定的用例,而不会产生高昂的数据注释成本。

流行的视觉基础模型

基础模型正在取得显着进展,导致出现了各种旨在在不同视觉任务中表现出色的 VFM。让我们探讨一些最著名的 VFM。

DINO(自蒸馏,无标签)

DINO是Meta AI基于ViT和师生架构的自监督模型。它使用户能够快速分割图像中的任何对象,从而可以从图像中提取有价值的特征,而无需耗时的微调和数据增强过程。

SAM(分段任意模型)

与传统方法相比,SAM 需要最少的注释,从而彻底改变了图像和视频分割。 CV从业者可以给出一系列提示来提取不同的图像特征。提示采用可点击的形式,这意味着从业者可以选择任何图像的特定部分,SAM 会将其分割出来以便更快地注释。

在这里插入图片描述

SegGPT

SegGPT 是建立在 Painter 框架之上的通用分割模型,它允许模型使用最少的示例来适应各种任务。该模型适用于所有分割任务,例如实例、对象、语义和全景分割。在训练过程中,模型执行上下文着色,即使用随机着色方案(而不是特定颜色)通过学习上下文信息来识别片段,从而提高模型的通用性。

Microsoft’s Visual ChatGPT

Microsoft 的 Visual ChatGPT 扩展了基于文本的 ChatGPT 的功能,将图像包含在内,使其能够执行各种任务,包括视觉问答 (VQA)、图像编辑和图像生成。该系统使用提示管理器,可以将语言和视觉用户查询输入到 ChatGPT 模型中。 Visual ChatGPT 可以访问其他 VFM(例如 BLIP、Stable Diffusion、Pix2Pix 和 ControlNet)来执行视觉任务。然后,提示管理器将所有输入的视觉信号转换为 ChatGPT 可以理解的语言格式。因此,ChatGPT 模型能够生成基于文本和图像的响应。

下图说明了 Visual ChatGPT 架构:

在这里插入图片描述

视觉基础模型的应用

VFM 在各个行业都有广泛的应用。下面我们来探讨其中的一些:

  • 医疗保健行业: VFM 可以改进医学图像分析,通过检测 X 射线、MRI 和 CTI 扫描以及其他医学图像中的问题来协助疾病检测和诊断。
  • 网络安全系统: vfm可以提供复杂的观察,发现违规行为,并识别网络安全领域的潜在威胁。早期威胁检测使组织能够主动保护其数字资产。
  • 汽车行业: VFM可以帮助自动驾驶汽车提高场景理解和行人识别,确保公共安全。
  • 零售行业: VFM 可以通过基于图像的分析实现库存跟踪和货架补货自动化,并改进库存管理。
  • 制造业: VFM 可以通过实时检测缺陷来提高视觉质量控制,减少修复时间并降低维护成本。

视觉基础模型的好处

VFM 可为各行业带来显着的经济效益。这些模型使用大量数据集进行细化和预训练,从而加快开发速度、使用更少的资源并提高人工智能驱动的应用程序的质量。

通过消除对耗时的手动特征工程和注释的需要,vfm可以缩短产品开发周期,允许组织减少其AI应用程序的上市时间。

vfm检测细微细节的能力可以通过实现精确的图像识别、自动识别物体和提出建议来改善用户体验。

vfm的迁移学习能力对企业人工智能系统尤其有益。通过迁移学习,企业可以对虚拟模型进行微调,以适应特定的任务,而无需从头开始训练整个模型。

在这里插入图片描述

可视化基础模型的挑战与考虑因素

虚拟财务模型具有强大的可视化理解能力,但仍是相对较新的模型,实践者在尝试使模型按预期运行时可能会遇到一些挑战。下面我们就来简要谈谈这些挑战。

解决视觉人工智能中与伦理、公平和偏见相关的问题

虽然 VFM 是一种智能模型,但有时也会因其学习的数据而产生偏差。如果数据中包含代表性不足的类别,这就会成为一个令人担忧的问题。例如,安防系统中的 VFM 可能只有在看到特定人群时才会发出警报。出现这种结果的原因可能是训练数据中的人员代表性有偏差。为了防止模型得出有偏差的结果,公司必须确保数据集是从不同来源收集的,并能公平地代表所有类别。

保护隐私、合规性和数据安全

可视化基础模型给数据安全带来了挑战,因为大型训练数据集可能会无意中暴露机密信息。通过强大的匿名化、加密和遵守 GDPR 等法规来保护数据至关重要。

为防止出现法律问题,必须遵守数据法规、知识产权和人工智能法规。在医疗保健和金融等行业,可解释的人工智能对于理解复杂的 VFM 预测至关重要。

成本管理

虽然虚拟飞行器具有高速度和高性能,但根据数据和模型的规模,它们的训练成本也很高。例如,据报道,OpenAI 的 GPT-3 模型的训练成本为 460 万美元。根据 OpenAI 的另一份报告,到 2030 年,大型人工智能模型的培训成本预计将从 1 亿美元上升到 5 亿美元。这些数字表明,要创建大型图像模型,企业必须承担高昂的成本。他们必须在 GPU、服务器和数据管道等计算资源上投入巨资,这使得开发过程极具挑战性。此外,还必须考虑部署模型的推理成本。

虽然虚拟飞行器具有高速度和高性能,但根据数据和模型的规模,它们的训练成本也很高。例如,据报道,OpenAI 的 GPT-3 模型的训练成本为 460 万美元。根据 OpenAI 的另一份报告,到 2030 年,大型人工智能模型的培训成本预计将从 1 亿美元上升到 5 亿美元。这些数字表明,要创建大型图像模型,企业必须承担高昂的成本。他们必须在 GPU、服务器和数据管道等计算资源上投入巨资,这使得开发过程极具挑战性。此外,还必须考虑部署模型的推理成本。

微调可视化基础模型

VFM 是预先训练的模型,具有预定义的权重,这意味着它们能够理解复杂的视觉模式和特征。换句话说,企业无需从头开始训练。相反,他们可以使用少量额外的特定领域数据来快速调整模型的权重,并将其应用于独特的问题。

微调视觉模型的步骤

  1. 选择一个预训练的 VFMs 模型: 从 Visual GPT、Stable Diffusion、DALL-E 和 SAM 等流行模型中进行选择,因为这些模型在视觉任务中具有最先进的性能。每种模型都有适合不同任务的优势,因此应根据业务需求做出决定。
  2. 准备好微调培训数据: 调整图像大小、标注对象并确保数据质量。在大多数情况下,只需要少量标注数据,因为大多数 VFM都采用自监督方式从无标注数据中学习。
  3. 保持顶层不变: VFM是复杂的深度学习模型,有多个层次。每一层都会从输入数据中提取相关特征。为了进行微调,可冻结顶层,使可通用的图像特征保持不变。用自定义配置替换最终层,以便从输入数据中学习新特征。
  4. 逐步调整: 就像对乐器进行微调一样–逐步解冻图层,以适应任务的细节要求。使用剔除、权重衰减、调整学习率和批量归一化等技术来防止过度拟合并最大限度地提高性能。尝试使用阶跃衰减、余弦退火或单周期学习率等学习率计划,以确定最适合你的数据集的策略。根据验证损失或准确率实施早期停止,并尝试使用不同的超参数,如批量大小和优化器设置。
  5. 评估与测试: 训练完成后,在测试数据集上对微调后的 VFMs 模型进行评估,以准确衡量其性能。针对具体任务使用适当的评估指标,如交集超过联合度(IoU)和平均精度。如果结果不理想,请再次重复上述步骤。

处理不平衡数据集和变异性的策略

虽然使用预先训练的 VFM 可以加快模型开发和微调过程,但企业可能会面临数据限制,从而无法实现理想的模型性能。在微调 VFM 时,有几种技术可以克服数据障碍。

  • 数据扩充: 通过数据扩充来增加类别平衡,即通过处理现有图像来增加数据集。
  • 分层抽样: 通过在训练、验证和测试数据中公平地表示类来确保公正的评估。
  • 重采样技术: 通过过采样和欠采样方法(如 SMOTE)解决类不平衡问题。
  • 加权损失函数: 通过调整损失函数权重,在训练期间增强对代表性不足的类的关注。
  • 集成方法: 通过组合来自多个模型的预测来提高性能和鲁棒性。
  • 领域适应: 该技术通过利用从另一个相关源领域学习的知识来提高目标模型性能。

未来趋势与展望

在人工智能和计算机视觉领域,VFM是未来。以下是我们可以期待在未来几年看到的一些令人兴奋的趋势:

架构进步: VFM 将通过更先进的架构设计和优化技术进行改进。例如,VFM中的自校正模块可以通过从反馈中学习来不断提高模型对人类意图的理解。

鲁棒性和可解释性: VFM将变得更加可解释,人类将能够在做出预测之前了解模型的思维方式。这种能力将大大有助于识别偏见和不足。

多模态集成: 通过多模态集成,VFM 将能够处理不同类型的信息,例如将图片与文字、声音或来自传感器的信息相结合。

例如,多模态对话模型 JARVIS 扩展了传统聊天机器人的功能。Microsoft Research 的 JARVIS 通过结合其他几个生成式 AI 模型来增强 ChatGPT 的能力,使其能够同时处理多种数据类型,例如文本、图像、视频和音频。用户可以向 JARVIS 提出复杂的视觉问题,例如对高度抽象的图像进行详细描述。

与其他人工智能领域的协同作用: VFM的发展与人工智能其他领域的发展密切相关,形成了一个联盟,扩大了它们的整体影响。例如,与 NLP 系统配合使用的 VFM 可以增强图片字幕和视觉问答等应用程序。

Visual Foundation 模型 — 迈向 AGI 的一步

视觉基础模型是解锁通用人工智能 (AGI) 的有希望的一步。为了开发可应用于任何实际任务的算法,这些模型需要能够处理多模态数据,例如文本和图像。虽然 NLP 领域已经使用 LLM(例如 OpenAI 的 GPT-4)展示了 AGI 级别的性能,但由于解释视觉信号的复杂性,计算机视觉领域尚未实现类似的性能。然而,视觉基础模型的出现是朝着这个方向迈出的有希望的一步。

理想情况下,VFM将能够执行广泛的视觉语言任务,并准确地泛化到新的、看不见的环境中。或者,一个统一的平台可以合并不同的视觉基础模型来解决不同的视觉任务。SAM 和 SegGPT 等模型在解决多模态任务方面显示出前景。然而,要真正实现AGI,CV和NLP系统必须能够在全球范围内大规模运行。

“全知”项目展示了模型识别和理解这个世界上一切的能力。全视模型 (ASM) 在包含数百万张图像和语言提示的海量数据集上进行训练,使其能够使用统一的框架对许多语言和视觉任务进行泛化,同时保持高零样本性能。这些进步是朝着实现视觉语言通用智能迈出的一步。

Visual Foundation 模型:关键要点

以下是一些关键要点:

  • Visual Foundation 模型根据语言提示生成图像。
  • VFM 在许多视觉任务中表现良好,无需大量标记训练数据。
  • VFM 应用自我监督从未标记的训练数据中学习模式。
  • 针对特定任务定制或微调 VFM 可提高其准确性。
  • 可以使用数据增强、重采样、集成和域适应等技术来解决 VFM 中的数据限制。
  • AP、IoU 和 PQ 等指标有助于衡量 VFM 在视觉任务中的表现。
  • VFM 与其他智能系统(如 NLP、强化学习和生成模型)结合使用时可以获得更好的结果。
  • VFM正朝着实现视觉语言通用智能的方向发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/312083.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PINN物理信息网络 | 物理信息神经网络PINN实例及其Python实现

基本介绍 物理信息神经网络是一种基于物理系统的神经网络模型。它的设计灵感来自于神经科学和量子力学,旨在利用物理系统的特性来处理和存储信息。 传统的神经网络使用数字或模拟电子组件作为基本单元进行计算和存储。而物理信息神经网络则使用物理系统中的元件来代…

制造企业实施WMS仓储管理系统后的变革与挑战

随着市场竞争的日益激烈,制造型企业对于提高生产效率和降低运营成本的需求愈发迫切。在这一背景下,WMS仓储管理系统解决方案逐渐成为制造业企业的必备工具。然而,实施WMS仓储管理系统不仅意味着企业将迎来一系列的变革,还将面临一…

【常用的简单功能及算法】拦截器 加盐算法 深克隆 时间日期格式化 加盐算法 sql分页算法 验证码

1.实现拦截器 Interceptor (以登录拦截器为例) 1.1 写一个登录拦截器普通类 实现HandlerInterceptor接口重写preHandle方法 //检验登录状态拦截器 //实现接口HandlerInterceptor 重写方法preHandle public class LoginInterceptor implements HandlerInterceptor {/** 该方…

新年烟花代码-html版

新年烟花代码 效果展示 代码 <!DOCTYPE html> <html lang"en" > <head><meta charset"UTF-8"><title>2024新年快乐&#xff01;万事如意&#xff01;</title><meta name"viewport" content"width…

Java中的多线程

进程和线程的概念 进程是应用程序的执行实例有独立的内存空间和系统资源。 线程是进程中执行运算的最小单位&#xff0c;可完成一个独立的顺序控制流程 一。一个进程可以包含多个线程&#xff0c;每个线程都独立执行特定的任务&#xff0c; 是CPU调度和分派的基本单位。 多线…

2023年全国职业院校技能大赛软件测试赛题—单元测试卷⑥

单元测试 一、任务要求 题目1&#xff1a;根据下列流程图编写程序实现相应分析处理并显示结果。返回结果“ax&#xff1a;”&#xff08;x为2、3或4&#xff09;&#xff1b;其中变量x、y均须为整型。编写程序代码&#xff0c;使用JUnit框架编写测试类对编写的程序代码进行测试…

开发知识点-RabbitMQ

RabbitMQ 下载与介绍权限了解消息状态rabbitmqctl命令与操作配置常见错误常见问题日志 poc-yaml-rabbitmq-default-password 下载与介绍 RabbitMQ是一个使用Erlang语言开发 开源的消息中间件项目&#xff08;Message Broker&#xff09;&#xff0c; 采用Mozilla Public Licen…

SpringBoot用MultipartFile.transferTo传递相对路径的问题

问题描述&#xff1a; 打算给自己的项目添加一个上传文件保存功能&#xff0c;于是我使用MultipartFile.transferTo()来完成这个功能&#xff0c;由于我的项目要部署到服务器&#xff0c;所以我使用了相对路径把上传的文件保存到当前项目的工作目录下&#xff0c;但是报错了&am…

如何在 Windows 中使用Copilot AI

Windows Copilot 是 Windows 中的一个新功能&#xff0c;它可以让你与一个智能助理进行对话&#xff0c;获取信息&#xff0c;执行任务&#xff0c;甚至创造内容。Windows Copilot 使用了 Bing Chat 的技术&#xff0c;它是一个基于 OpenAI 的 GPT-4 模型的聊天机器人。 目录 …

关于树结构的数据的权限控制的算法

树结构的权限控制分两种:1、逐层加载&#xff1b;2、一次性加载 一、逐层加载 涉及的表结构 表名 T_PLAN 表字段 字段类型 是否必 须字段 说明 ID VARCHAR2(50) Y 主键 PARENT_ID VARCHAR2(50) Y 父项节点ID&#xff0c;默认根节点的父节点ID’-1’ TREEPATH VA…

vue3的福音框架arco.design

前言&#xff1a; 在vue2于2023年底正式宣布不在维护&#xff0c;vue3使用越来越频繁的时刻&#xff0c;我们实现项目的辅助框架也越来越多。element, iview, antd 等经典框架继续风靡一时&#xff0c;不过也有很多好的框架&#xff0c;功能也强大&#xff0c;比如我们今天说的…

ISO 11519-2 开环低速 CAN 网络(10K~125Kbps)

ISO 11519-2 标准的物理框图如下图 可理解为一个低速开环 CAN 总线网络&#xff1b;CAN 开环总线网络允许总线最大长度为 1km;最高速度为 125Kbps;这里的两根线是独立的&#xff0c;每根线上串联一个 2.2kΩ 的电阻&#xff1b;节点就是不同的设备&#xff0c;连接到一个开环总…

Mac上使用phpstudy+vscode配置PHP开发环境

使用的工具&#xff1a; 1、系统版本 2、vs code code 3、phpstudy_pro 一、下载vs code code以及必要的插件 1、vs code下载 点击vs code官网下载 选择对应的版本&#xff0c;一般电脑会自动识别对应的版本&#xff0c;点击下载&#xff0c;然后傻瓜式安装&#xff01; 2…

万字长文 详细讲述 计算机网络层

文章目录 网络层网络层的几个重要概念网络层的两个层面 网际协议 IP虚拟互连网络IP 地址IP 地址及其表示方法IP 地址与 MAC 地址地址解析协议 ARPIP 数据报的格式 IP层转发分组过程基于终点的转发最长前缀匹配 网际控制报文协议 ICMPICMP 报文的种类ICMP 的应用举例IPv6 的基本…

Leetcode 494 目标和

题意理解&#xff1a; 给你一个非负整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 或 - &#xff0c;然后串联起所有整数&#xff0c;可以构造一个 表达式 &#xff1a; 例如&#xff0c;nums [2, 1] &#xff0c;可以在 2 之前添加 &#xff0c;在 1 之前添…

js更新地址栏,但是不刷新页面

记录一下第一次遇到更新地址栏但是不刷新页面的需求 有时候会遇到一些需求&#xff0c;比如复制地址&#xff0c;分享给别人 希望也保留筛选条件&#xff0c;但是之前做的时候筛选条件存储到的状态管理工具里面了&#xff0c;地址栏没有&#xff0c;所以为了更快的实现效果&am…

如何下载“ubuntu”在win10系统?

一、下载 企业开源和 Linux |Ubuntu的

解决jenkins需要jdk11,项目需要jdk8的问题

思路&#xff1a;jdk8 采用解压缩模式&#xff0c;jdk11采用安装模式&#xff0c;然后在jenkins中指定jdk路径 下载解压缩jdk8 https://www.oracle.com/java/technologies/downloads/#java8 解压缩&#xff1a;jdk-8u391-linux-i586.tar.gz /lib/ld-linux.so.2: bad ELF inte…

Realm Management Extension领域管理扩展之颗粒保护检查

本节描述了RME引入的颗粒保护检查。颗粒保护检查使得能够在不同的物理地址空间之间动态分配内存区域。 本节将向您介绍以下功能: 颗粒保护表的结构用于颗粒保护检查的故障报告区域在物理地址空间之间的过渡正如在物理地址一节中所述,RME提供了四个物理地址空间。以下图表显示…

搭建 MyBatis 环境

目录 1.添加依赖 2.数据库连接配置 3.配置XML路径 4.下载插件MyBatisX 5.如何使用 6.示例 1.添加依赖 创建新项目时添加两个依赖: MyBatis Framewrok 和 MySQL Driver 。 如果是在已经创建好的项目中配置mybatis环境。需要先下载一个插件&#xff1a;EditStarters 。 然…