【深度学习:Foundation Models】基础模型完整指南

在这里插入图片描述

【深度学习:Foundation Models】基础模型完整指南

    • 什么是基础模型?
    • 基础模型背后的 5 项人工智能原理
      • 根据大量数据进行预训练
      • 自我监督学习
      • 过度拟合
      • 微调和快速工程(适应性强)
      • 广义的
    • 基础模型的用例
    • 基础模型的类型
      • 计算机视觉基础模型
      • 计算机视觉基础模型的示例
      • 多模式基础模型
      • 多模式基础模型示例
      • 生成对抗网络(GAN)
      • GAN 的示例
      • 基于 Transformer 的大型语言模型 (LLM)
      • LLMs的例子
    • 基础模型的评估指标
    • 如何在计算机视觉中使用基础模型
    • 基础模型要点

基础模型是经过人工智能训练的大规模模型,可利用海量数据和计算资源生成从文本到图像的任何内容。最流行的基础模型包括 GANs、LLMs、VAEs 和 Multimodal,为 ChatGPT、DALLE-2、Segment Anything 和 BERT 等著名工具提供支持。

基础模型是在大量无标记数据基础上进行无监督训练的大规模人工智能模型。

其结果是,这些模型具有令人难以置信的通用性,可用于众多任务和用例,如图像分类、物体检测、自然语言处理、语音转文本软件,以及在我们日常生活和工作中发挥作用的众多人工智能工具。

人工智能(AI)模型和该领域的进步正以前所未有的速度加速发展。就在不久前,德国艺术摄影师鲍里斯-埃尔达格森(Boris Eldagsen)的作品 "PSEUDOMNESIA:The Electricia "获得了 2023 年索尼世界摄影大赛创意类奖项。

在一份新闻稿中,该奖项的赞助商索尼公司将其描述为 “两代不同女性的黑白肖像,让人联想起 20 世纪 40 年代家庭肖像的视觉语言”。

获奖后不久,Eldagsen 拒绝接受奖项,承认图片是人工智能生成的。

基础模型并不新鲜。但它们对生成式人工智能软件和算法的贡献正开始对世界产生巨大影响。这张图片是否预示着未来的发展,以及基础模型和生成式人工智能的巨大潜在影响?

在这里插入图片描述
获奖的人工智能生成图像:未来的征兆和基础模型的力量?

在本文中,我们将深入探讨基础模型,包括以下内容:

  • 什么是基金会模式?
  • 基础模型背后的 5 项人工智能原理
  • 不同类型的基础模型(例如,广义网络模型、本地语言模型、VAE模型、多模态模型和计算机视觉模型等)
  • 基础模型的用例、演变和衡量标准;
  • 以及如何在计算机视觉中使用基础模型。

让我们继续深入 . .

什么是基础模型?

基础模型 "一词是斯坦福以人为中心的人工智能研究所(HAI)的基础模型研究中心(CRFM)于 2021 年创造的。CRFM 诞生于斯坦福的 HAI 中心,汇集了斯坦福 10 个院系的 175 名研究人员。

这远非唯一一家对基础模型进行研究的学术机构,但由于这一概念起源于此,因此值得注意的是最初对基础模型的描述方式。

CRFM 将基础模型描述为 “任何在广泛数据上训练出来的模型(一般使用大规模自监督),可以适应(例如微调)广泛的下游任务”。欲了解更多信息,他们的论文《论基础模型的机遇与风险》值得一读。

CRFM 主任、斯坦福大学计算机科学副教授珀西-朗(Percy Lang)说:"当我们听到 GPT-3 或 BERT 时,我们会被它们生成文本、代码和图像的能力所吸引,但更根本、更隐蔽的是,这些模型正在从根本上改变人工智能系统的构建方式。

换句话说,GPT-3(现为 V4)、BERT 和其他许多模型都是基础模型的实例和类型。

在这里插入图片描述
让我们来探讨基础模型背后的五个核心人工智能原理、使用案例、基于人工智能的模型类型,以及如何将基础模型用于计算机视觉使用案例。

基础模型背后的 5 项人工智能原理

以下是使基础模型成为可能的五项核心人工智能原则。

根据大量数据进行预训练

无论是经过微调的基础模型,还是开放或封闭的基础模型,通常都是在大量数据的基础上预先训练过的。

以 GPT-3 为例,它是在 500,000 百万字的基础上训练而成的,相当于人类 10 辈子不停地阅读!它包含 1750 亿个参数,比 GPT-3 多 100 倍,比其他同类 LLM 多 10 倍。

要使如此庞大的模型发挥作用,需要大量的数据和参数。实际上,开发基础模型需要非常充足的资金和资源。

一旦公开,任何人都可以将其用于无数商业或开源方案和项目。然而,这些模型的开发需要巨大的计算处理能力、数据和资源。

自我监督学习

在大多数情况下,基础模型根据自我监督学习原则运行。即使有数百万或数十亿的参数,提供的数据和输入也没有标签。模型需要学习数据中的模式,并据此生成响应/输出。

过度拟合

在预训练和参数开发阶段,过拟合是创建基础模型的重要组成部分。同样,Encord 在开发计算机视觉微模型时也使用了过度拟合技术。

微调和快速工程(适应性强)

基础模型的适应性非常强。这成为可能的原因之一是对它们进行微调和促进工程的工作。不仅在开发和训练阶段,而且当模型上线时,提示都可以实现大规模迁移学习。

这些模型根据用户的提示和输入不断改进和学习,使未来发展的可能性更加令人兴奋。

在这里插入图片描述

有关更多信息,请查看我们关于 SegGPT 的文章:对上下文中的所有内容进行分段 [解释]。

广义的

基础模型本质上是广义的。由于他们中的大多数人没有接受过任何特定的培训,因此数据输入和参数必须尽可能通用才能使其有效。

然而,基础模型的性质意味着它们可以根据需要应用并适应更具体的用例。从很多方面来说,它们对数十个行业和部门来说更加有用。

考虑到这一点,让我们考虑基础模型的各种用例。 。 。

基础模型的用例

基础模型有数百个用例,包括图像生成、自然语言处理 (NLP)、文本转语音、生成式 AI 应用程序等。

OpenAI 的 ChatGPT(包括最新迭代版本 4)、DALL-E 2 和 BERT(Google 开发的基于 NLP 的掩码语言模型)是最受广泛关注的基础模型示例中的两个。

然而,尽管这些令人兴奋和谈论,还有许多其他用例和基础模型类型。是的,这些基础模型能够执行生成人工智能下游任务,例如创建营销文案和图像,是输出的绝佳演示。

然而,数据科学家还可以为更专业的任务和用例训练基础模型。基础模型可以接受从医疗保健任务到自动驾驶汽车和武器以及分析卫星图像的任何训练。

在这里插入图片描述

基础模型的类型

有许多不同类型的基础模型,包括生成对抗网络 (GAN)、变分自动编码器 (VAE)、基于 Transformer 的大语言模型 (LLM) 和多模态模型。

当然,还有其他的,例如变分自动编码器(VAE)。但就本文而言,我们将探讨 GAN、多模态、LLM 和计算机视觉基础模型。

计算机视觉基础模型

计算机视觉是许多基于人工智能的模型之一。计算机视觉中使用了数十种不同类型的算法生成模型,基础模型就是其中之一。

计算机视觉基础模型的示例

Florence 就是一个例子,“一种计算机视觉基础模型,旨在学习通用视觉语言表示,适用于各种计算机视觉任务、视觉问答、图像字幕、视频检索等任务。”

Florence 在图像描述和标签方面经过了预先训练,使其成为使用图像文本对比学习方法的计算机视觉任务的理想选择。

多模式基础模型

多模态基础模型结合图像文本对作为输入,并在预训练数据阶段将两种不同的模态关联起来。当尝试实现任务的跨模态学习时,这被证明特别有用,从而使正在训练的多模态模型的数据之间具有很强的语义相关性。

多模式基础模型示例

多模式基础模型的一个例子是微软的 UniLM,“一个统一的预训练语言模型,可以读取文档并自动生成内容。”

微软亚洲研究院于 2019 年开始研究文档 AI(合成、分析、总结和关联文档中大量基于文本的数据)问题。该团队提出的解决方案结合了 CV 和 NLP 模型来创建 LayoutLM 和UniLM,专门用于阅读文档的预训练基础模型。

生成对抗网络(GAN)

生成对抗网络 (GAN) 是一种基础模型,涉及两个神经网络,它们在零和游戏中相互竞争。一个网络的收益就是另一个网络的损失。 GAN 对于半监督、监督和强化学习很有用。并非所有 GAN 都是基础模型;然而,有几个属于这一类。

美国计算机科学家 Ian Goodfellow 和他的同事在 2014 年提出了这个概念。

GAN 的示例

生成对抗网络 (GAN) 有许多用例,包括创建图像和照片、计算机视觉的合成数据创建、视频游戏图像生成,甚至增强天文图像。

在这里插入图片描述

基于 Transformer 的大型语言模型 (LLM)

基于 Transformer 的大型语言模型 (LLM) 是最广为人知和使用的基础模型之一。 Transformer 是一种深度学习模型,它权衡每个输入(包括递归输出数据)的重要性。

大型语言模型 (LLM) 是一种语言模型,由具有许多参数的神经网络组成,通常通过自我监督学习方法对数十亿个基于文本的输入进行训练。将 LLM 和 Transformer 相结合,为我们提供了基于 Transformer 的大语言模型 (LLM)。

正如你们中的许多人所知道的那样,有大量的示例和用例,并且可能已经从每天在各种工作场所场景中的部署中受益。

在这里插入图片描述

LLMs的例子

一些最受欢迎的LLMs包括 OpenAI 的 ChatGPT(包括最新版本,版本 4)、DALL-E 2 和 BERT(由 Google 创建的LLMs)。

BERT 代表“来自 Transformers 的双向编码器表示”,实际上比基础模型的概念早了几年。

而 OpenAI 的 ChatGPT 中的“Chat”代表“生成式预训练 Transformer”。 Microsft 对 ChatGPT-3 的功能印象深刻,因此对 OpenAI 进行了大量投资,目前正在将其基础模型技术与其搜索引擎 Bing 集成。

谷歌正在取得类似的进展,利用基于人工智能的LLMs通过称为 Bard 的功能来增强其搜索引擎。据我们所知,人工智能即将塑造搜索的未来。

正如您所看到的,LLMs(无论是否基于 Transformer)正在对搜索引擎和人们使用人工智能仅在少量提示下生成文本和图像的能力产生重大影响。

我们始终热衷于学习、理解和使用新工具,尤其是基于人工智能的工具。以下是我们雇用 ChatGPT 作为 ML 工程师一天时发生的事情!

在这里插入图片描述

基础模型的评估指标

基础模型的评估方式有很多种,其中大多数分为两类:内在评估(模型针对任务和子任务设置的性能)和外在评估(模型如何针对最终目标进行整体执行)。

不同的基础模型以不同的方式根据性能指标进行衡量;例如,与预测模型相比,生成模型将根据其自身进行评估。

在高层次上,以下是用于评估基础模型的最常见指标:

  • 精度: 始终值得测量。这个基础模型的精确度如何?精度和准确度是在数百个算法生成的模型中使用的 KPI。
  • F1 分数: 结合了精度和召回率,因为它们是互补的指标,生成单个 KPI 来衡量基础模型的输出。
  • 曲线下面积 (AUC): 一种有用的方法,用于评估模型是否可以根据特定基准和阈值分离并捕获积极结果。
  • 平均倒数排名 (MRR): 一种评估响应与所提供的查询或提示相比正确与否的方法。
  • 平均精度(MAP): 评估检索任务的指标。 MAP 计算接收和生成的每个结果的平均精度。
  • 面向召回的 Gisting 评估 (ROUGE): 衡量模型性能的召回,用于评估生成文本的质量和准确性。检查模型是否出现“幻觉”也很有用;得出一个有效猜测的答案,产生不准确的结果。

还有很多其他的。然而,对于研究基础模型或将其与 CV、AI 或深度学习模型结合使用的 ML 工程师来说,这些是一些最有用的评估指标和 KPI。

如何在计算机视觉中使用基础模型

尽管基础模型更广泛地用于基于文本的任务,但它们也可以部署在计算机视觉中。在许多方面,基础模型都直接或间接地为计算机视觉的进步做出了贡献。

更多资源投入人工智能模型开发,这对计算机视觉模型和项目产生了积极的连锁反应。

更直接的是,有专门为计算机视觉创建的基础模型,例如 Florence。另外,正如我们所见,GAN 基础模型对于为计算机视觉项目和应用程序创建合成数据和图像非常有用。

基础模型要点

基础模型在促进各种规模的组织广泛使用和采用人工智能解决方案和软件方面发挥着重要作用。

凭借各个领域的大量用例和应用程序,我们预计基础模型将鼓励采用其他基于人工智能的工具。

生成式人工智能工具等基础模型正在降低企业开始采用人工智能工具的门槛,例如计算机视觉项目的自动注释和标签平台。

得益于人工智能平台,现在所做的很多事情都是不可能的,这展示了组织可以从人工智能工具中获得的投资回报率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/309433.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【图解面试】JS系列 - 如何回答数据类型相关问题(上)

1. JS中的数据类型有哪些,他们的区别是什么? 知识点大纲 语言组织(示例) 要点:数量 → 种类 → 区别 JS中的数据类型主要有 8 种,分为两大类 基础数据类型 和 引用数据类型 基础数据类型中主要有 Numbe…

wpf的资源路径

1、手动命名空间 xmlns:share"clr-namespace:***;assembly**" 2、资源文件 Pack URI 编译到本地程序集内的资源文件的 pack URI 使用以下授权和路径: 授权:application:///。 路径:资源文件的名称,包括其相对于本地…

【OpenCV学习笔记06】- 制作使用轨迹条控制的调色板

内容 学习将轨迹栏绑定到 OpenCV 窗口。你将学习这些函数:cv.getTrackbarPos(), cv.createTrackbar() 等等。 调色板代码 这里,我们将创建用以显示指定颜色的简单程序。 你有一个显示颜色的窗口和三个轨迹栏,用来指定 B,G&…

研发型企业怎样选择安全便捷的数据摆渡解决方案?

研发型企业在市场经济发展中发挥着至关重要的作用,研发型企业是指以科技创新为核心,以研发新产品、新技术、新工艺为主要业务的企业。这类企业注重技术创新和研发,持续不断地进行技术创新和产品升级,为经济发展注入新鲜的活力。 研…

Vue学习笔记五--路由

1、什么是路由 2、VueRouter 2、1VueRouter介绍 2、2使用步骤 2、3路由封装 3、router-link 3.1两个类名 3.2声明式导航传参 4、路由重定向、404 当找不到路由时,跳转配置到404页面 5、路由模式 6、通过代码跳转路由---编程式导航&传参 路由跳转时传参 跳转方式…

canvas设置线条样式(宽度,端点形态、拐点样式、虚线)

查看专栏目录 canvas示例教程100专栏,提供canvas的基础知识,高级动画,相关应用扩展等信息。canvas作为html的一部分,是图像图标地图可视化的一个重要的基础,学好了canvas,在其他的一些应用上将会起到非常重…

学习笔记之——3D Gaussian Splatting源码解读

之前博客对3DGS进行了学习与调研 学习笔记之——3D Gaussian Splatting及其在SLAM与自动驾驶上的应用调研-CSDN博客文章浏览阅读450次。论文主页3D Gaussian Splatting是最近NeRF方面的突破性工作,它的特点在于重建质量高的情况下还能接入传统光栅化,优…

【Python】AttributeError: module ‘torch.nn‘ has no attribute ‘HardSigmoid‘

AttributeError: module ‘torch.nn’ has no attribute ‘HardSigmoid’ 这个错误是因为PyTorch的torch.nn模块中并没有HardSigmoid这个函数。是拼写的大小写问题,换成nn.Hardsigmoid()即可。 如下述代码出错。 import torch import torch.nn as nn hard_sigmoid…

进程、线程、协程的对比、区别和联系,进程之间的通信方式、线程之间的通信方式、协程之间的通信方式

前言 之前的一篇文章曾写过一些关于进程、线程、协程的内容——进程、线程、协程… … ——任务管理器的性能里都有什么?那么多的线程,进程、线程、句柄都是什么? 但对其之间的通信方式还是没有太过详细了解,因此特写此&#xf…

Flink构造宽表实时入库案例介绍

1. 安装包准备 Flink 1.15.4 安装包 Flink cdc的mysql连接器 Flink sql的sdb连接器 MySQL驱动 SDB驱动 Flink jdbc的mysql连接器 2. 入库流程图 3. Flink安装部署 上传Flink压缩包到服务器,并解压 tar -zxvf flink-1.14.5-bin-scala_2.11.tgz -C /opt/ 复…

7个JavaScript面试题全面解析,一文搞定技术面试

JavaScript是构建网络的主要基石之一。这个强大的语言也有自己的怪癖。例如,您知道0 -0计算为true,或者Number("")产生0吗? 问题在于,这些怪癖有时会让你抓耳挠腮,甚至质疑Brendon Eich发明JavaScript的那一天是不是high了。当然,这里的重点不是说JavaScript是一种…

金融帝国实验室(Capitalism Lab)V10版本游戏平衡性优化与改进

即将推出的V10版本中的各种游戏平衡性优化与改进: ————————————— 一、当玩家被提议收购一家即将破产的公司时,显示商业秘密。 当一家公司濒临破产,玩家被提议收购该公司时,如果玩家有兴趣评估该公司,则无…

【Axure高保真原型】树控制内联框架

今天和大家分享树控制内联框架的原型模板,点击树的箭头可以打开或者收起子节点,点击最后一级人物节点,可以切换右侧内联框到对应的页面,左侧的树是通过中继器制作的,使用简单,只需要按要求填写中继器表格即…

【二】为Python Tk GUI窗口添加一些组件和绑定一些组件事件

文章目录 背景系统环境添加一些组件添加一个Tab标签Frame标签内添加两个单选框、按钮为按钮添加事件(预览图片、生成图片按钮和事件) 运行示例添加notebook组件和frame组件(见标题【添加一个Tab标签】)在frame组件上添加单选框和按…

dpdk20.11.9 编译arm版本以及在arm 应用中引用dpdk20.11.9

以往19版本的dpdk 都是可以直接用make 的方式进行编译, e.g, make Tx86_64-native-linux-gcc install 为了和客户那边用的DPDK 版本一致, 这次要用dpdk20.11.9, 并且要把之前跑在X86 版本的服务器上的程序跑在ARM 版本上. 目前有两个问题: 1. 编译出arm 版本的dpdk. 2. 把…

Spark与云存储的集成:S3、Azure Blob Storage

在现代数据处理中,云存储服务如Amazon S3和Azure Blob Storage已成为存储和管理数据的热门选择。与此同时,Apache Spark作为大数据处理框架也备受欢迎。本文将深入探讨如何在Spark中集成云存储服务,并演示如何与S3和Azure Blob Storage进行互…

R语言安装教程(附安装包链接)

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 Mac支持M1芯片,下载其中的arm即可,其余下载另一个文件 下载链接: 链接: https://pan…

Python如何使用Excel文件

使用Python操作Office——EXCEL 首先介绍下office win32 com接口,这个是MS为自动化提供的操作接口,比如我们打开一个EXCEL文档,就可以在里面编辑VB脚本,实现我们自己的效果。对于这种一本万利的买卖,Python怎么能放过…

怎么样检查自己系统上的Python环境中是否有某个包(扩展库)?

比如我们这里想看下有没有库pytz 很简单,进入Python的命令行,然后输入下面的命令: import pytz如果有这个库,则不会报错,否则会报错。 Windows的测试结果如下: Centos的测试结果如下:

【LV12 DAY12-13 GPIO C 语言与寄存器封装】

GPIO 通用型输入输出,GPIO可以控制连接在其引脚实现信号的输入和输出 芯片的引脚和外部设备相连从而实现与外部硬件的通讯,控制,信号采集的功能。 控制CHG_COK引脚输出为高电平,LED亮,输出为低电平,LED熄灭…