机器学习中的嵌入是什么?

一、说明

        嵌入是真实世界对象的数字表示,机器学习(ML)和人工智能(AI)系统利用它来像人类一样理解复杂的知识领域。例如,计算算法了解 2 和 3 之间的差为 1,这表明与 2 和 100 相比,2 和 3 关系更为密切。但是,真实世界数据包含更复杂的关系。例如,鸟巢和狮穴是相似对,而昼夜是相反词。嵌入将真实世界的对象转换成复杂的数学表示,以捕捉真实世界数据之间的固有属性和关系。整个过程是自动化的,人工智能系统会在训练期间自我创建嵌入,并根据需要使用它们来完成新任务。

二、为什么嵌入至关重要?

        嵌入使深度学习模型能够更有效地理解真实世界的数据域。它们简化了真实世界数据的表示方式,同时保留了语义和语法关系。这使得机器学习算法可以提取和处理复杂的数据类型,并支持创新的人工智能应用。以下部分介绍了一些重要因素。 

2.1 降低数据维度

        数据科学家使用嵌入在低维空间中表示高维数据。在数据科学中,维度一词通常是指数据的特征或属性。人工智能中的高维数据是指具有定义每个数据点许多特征或属性的数据集。这可能涉及数十、数百甚至数千个维度。例如,可以将图像视为高维数据,因为每个像素颜色值都是一个单独的维度。

        当提供高维数据时,深度学习模型需要更多计算能力和时间,才能进行准确地学习、分析和推断。嵌入通过识别各种特征间的共同点和模式来减少维度的数量。因此,这可以减少处理原始数据所需的计算资源和时间。

2.2 训练大型语言模型

        训练大型语言模型(LLM)时,嵌入可以提高数据质量。例如,数据科学家使用嵌入来清理训练数据中影响模型学习的不规则性。机器学习工程师还可以通过为迁移学习添加新的嵌入来重新利用预训练的模型,但这需要使用新的数据集来完善基础模型。借助嵌入,工程师可以针对现实世界的自定义数据集精细调整模型。

2.3 打造创新性应用程序

        嵌入支持新的深度学习和生成式人工智能应用程序。神经网络架构中应用的不同嵌入技术能够在各个领域和应用中开发、训练和部署精确的人工智能模型。例如:

  • 借助图像嵌入,工程师可以构建用于对象检测、图像识别和其他视觉相关任务的高精度计算机视觉应用程序。 
  • 通过单词嵌入,自然语言处理软件可以更准确地理解单词的上下文和关系。
  • 图嵌入从互连节点提取相关信息并进行分类,从而支持网络分析。

计算机视觉模型、人工智能聊天机器人和人工智能推荐系统都使用嵌入来模仿人类智能完成复杂任务。

三、嵌入中的向量是什么?

        机器学习模型无法以原始格式明确解读信息,需要以数值数据作为输入。它们使用神经网络嵌入将实词信息转换为称为向量的数字表示形式。向量是以多维空间形式表示信息的数值。它们可以帮助机器学习模型找到稀疏分布的项目间的相似之处。 

        机器学习模型学习的每个对象都有不同的特征。举一个简单的例子,思考以下电影和电视剧。每种都以体裁、类型和发行年份为特征。 

The Conference(恐怖片,2023 年,电影)

Upload(喜剧,2023 年,电视剧,第 3 季)

Tales from the Crypt(恐怖片,1989 年,电视剧,第 7 季)

Dream Scenario(恐怖喜剧,2023 年,电影)

        机器学习模型可以解读年份等数值变量,但无法比较体裁、类型、剧集和总季数等非数字变量。嵌入向量将非数字数据编码为机器学习模型可以理解和关联的一系列值。例如,以下是前面列出的电视剧的假设表示。 

The Conference(1.2、2023、20.0)

Upload(2.3、2023、35.5)

Tales from the Crypt(1.2、1989、36.7)

Dream Scenario(1.8、2023、20.0)

        向量中的第一个数字对应于特定的体裁。机器学习模型会发现 The Conference 和 Tales from the Crypt 是相同的体裁。同样,该模型还会根据代表形式、季数和剧集的第三个数字,发现 Upload 和 Tales from the Crypt 间的更多关系。随着更多变量的引入,您可以优化模型,将更多信息浓缩到更小的向量空间中。 

四、嵌入的工作原理是怎样的?

        嵌入将原始数据转换为机器学习模型可以理解的连续值。过去,机器学习模型使用独热编码将类别变量映射为可以学习的形式。此编码方法将每个类别分为行和列,并为其分配二进制值。考虑以下类别的农产品及其价格。

水果

价格

苹果

5.00

奥兰治

7.00

胡萝卜

10.00

下表使用独热编码结果表示值。

苹果

奥兰治

价格

1

0

0

5.00

0

1

0

7.00

0

0

1

10.00

此表以数学方式表示为向量 [1,0,0,5.00]、[0,1,0,7.00] 和 [0,0,1,10.00]。

        独热编码可扩展 0 和 1 维度值,但不提供帮助模型关联不同对象的信息。例如,尽管苹果橙子都是水果,但该模型无法找到其相似之处,也无法按水果和蔬菜区分橙子胡萝卜。随着更多类别添加到列表中,编码会生成稀疏分布的变量,其中包含许多空值,会占用大量内存空间。 

        嵌入通过使用数值表示对象间的相似之处,将对象向量化到低维空间。神经网络嵌入可在扩展输入特征的情况下,维度数量仍然可以管理。输入特征是机器学习算法负责分析的特定对象特征。降维让嵌入可以保留信息,而机器学习模型可以使用这些信息来查找输入数据间的相似之处和不同之处。数据科学家还可以对二维空间中的嵌入可视化,从而更好地理解分布式对象间的关系。 

五、什么是嵌入模型?

        嵌入模型是经过训练的算法,可在多维空间中将信息封装为密集式表示。数据科学家使用嵌入模型让机器学习模型能够理解和推理高维数据。这些是机器学习应用中使用的常见嵌入模型。

5.1 主成分分析

        主成分分析PCA)是一种降维技术,可将复杂的数据类型简化为低维向量。它会找到具有相似性的数据点,并将它们压缩成反映原始数据的嵌入向量。虽然 PCA 让模型可以更有效地处理原始数据,但在处理过程中可能会出现信息丢失。

5.2 奇异值分解

        奇异值分解SVD)是一种嵌入模型,可将矩阵转换为其奇异矩阵。生成的矩阵保留了原始信息,同时模型也能更好地理解它们所代表的数据的语义关系。数据科学家使用 SVD 来执行各种机器学习任务,包括图像压缩、文本分类和推荐。 

5.3 Word2Vec

        Word2Vec 是一种机器学习算法,训练后,可以关联单词并在嵌入空间中表示。数据科学家为 Word2Vec 模型提供大量文本数据集,实现自然语言理解。此模型通过考虑单词的上下文和语义关系来发现单词的相似之处。

        Word2Vec 有两种变体:连续词袋(CBOW)和跳字。CBOW 让模型可以根据给定上下文预测单词,而跳字则可以从给定单词推导上下文。尽管 Word2Vec 是一种有效的单词嵌入技术,但它无法准确区分用于暗示不同含义的同一单词的上下文差异。 

5.4 BERT

        BERT 是一种基于转换器的语言模型,使用海量数据集进行训练后可以像人类一样理解语言。和 Word2Vec 一样,BERT 可以根据训练所用的输入数据创建单词嵌入。此外,当应用于不同的短语时,BERT 可以区分单词的上下文含义。例如,BERT 为“play”创建了不同的嵌入,比如“I went to a play”“I like to play”。 

六、嵌入是如何创建的?

工程师使用神经网络来创建嵌入。神经网络由隐藏的神经元层组成,它们以迭代方式做出复杂的决策。创建嵌入时,其中一个隐藏层将学习如何将输入特征分解为矢量。这发生在特征处理层之前。此过程由工程师监督和指导,步骤如下: 

  1. 工程师向神经网络提供一些手动准备的矢量化样本。
  2. 神经网络从样本中发现的模式中学习,并利用这些知识从看不见的数据中做出准确的预测。
  3. 有时,工程师可能需要对模型进行微调,以确保其将输入特征分布到适当的维度空间中。 
  4. 随着时间的推移,嵌入会独立运行,从而允许 ML 模型根据矢量化表示生成推荐。 
  5. 工程师继续监控嵌入的性能并使用新数据进行微调。

七、AWS 如何帮助您应对嵌入要求?

        Amazon Bedrock 是一项完全托管式服务,可选择来自领先 AI 公司的高性能基础模型(FM),以及具有用于构建生成式人工智能(生成式 AI)应用程序的一系列广泛功能。Amazon Bedrock Titan 基础模型是由 AWS 在大型数据集上预训练的一系列 FM。它们是功能强大的通用模型,旨在支持各种用例。您可以按原样使用,也可以根据自己的数据对其自定义。 

        Titan Embeddings 将文本转换为数字表示的 LLM。Titan Embeddings 模型支持文本检索、语义相似性和集群。最大输入文本为 8K 个标记,最大输出向量长度为 1536。

        机器学习团队还可以使用 Amazon SageMaker 来创建嵌入。Amazon SageMaker 是一个中心,在这里,您可以在安全且可扩展的环境中构建、训练和部署 ML 模型。它提供了一种名为 Object2Vec 的嵌入技术,工程师可以使用该技术在低维空间中对高维数据进行矢量化。您可以使用已学习的嵌入来计算下游任务(例如分类和回归)的对象间的关系。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/904972.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python | Leetcode Python题解之第517题超级洗衣机

题目: 题解: class Solution:def findMinMoves(self, machines: List[int]) -> int:tot sum(machines)n len(machines)if tot % n:return -1avg tot // nans, s 0, 0for num in machines:num - avgs numans max(ans, abs(s), num)return ans

【PTA】4-1 计算二叉树最大的宽度 【数据结构】

二叉树的最大宽度是指二叉树所有层中结点个数的最大值。例如:下面二叉树的宽度为4. 输入二叉树的完全前序序列建立一棵二叉树(上机作业2:二叉树的建立和遍历),编写算法计算并输出二叉树的宽度。 输入格式: 二叉树数据…

开源智能文档处理系统,助力医疗数据精准管理与高效整合

问题导向: 当前医疗文档中信息零散、数据整合度低,导致人工管理难度加大,错误率高。思通数科的系统在此背景下提供了免费的开源工具,帮助医疗机构实现数据的高效、精准管理,支持实时数据提取和智能管理。 客户案例&am…

STM32使用串口下载程序

STM32使用串口下载程序 FluMcu软件下载地址 单片机在线编程网 STM32 MCU启动模式配置(Boot Configuration) 单片机复位后,SYSCLK的第4个上升沿,BOOT引脚上的值将锁存,用户可以通过设置BOOT0和BOOT1引脚的值,来选择复位后的启动…

新兴斗篷cloak技术,你了解吗?

随着互联网技术的飞速发展,网络营销领域也经历了翻天覆地的变革。 从最早的网络横幅广告到如今主流的搜索引擎和社交媒体营销,广告形式变得越来越多样。 其中,搜索引擎广告一直以其精准投放而备受青睐,但近年来,一项名…

WPF+MVVM案例实战(十四)- 封装一个自定义消息弹窗控件(下)

文章目录 1、案例效果2、弹窗空间使用1.引入用户控件2、按钮命令实现 3、总结4、源代码获取 1、案例效果 2、弹窗空间使用 1.引入用户控件 打开 Wpf_Examples 项目,在引用中添加用户控件库,在 MainWindow.xaml 界面引用控件库,代码如下&…

教材管理系统设计与实现

教材管理系统设计与实现 1. 系统概述 教材管理系统是一个基于PHP和SQL的Web应用程序,旨在为学校提供一个高效的教材管理平台。该系统可以帮助管理员录入教材信息、教师查询和申请教材、学生查询教材信息,提高教材管理的效率和透明度。 2. 技术栈 前端…

【时间序列分析】平稳时间序列分析——Wold分解定理和延迟算子

Wold分解定理 (这个定理是平稳时间序列分析的理论基石。) 对于任意一个离散平稳时间序列, 它都可以分解为两个不相关的平稳序列之和, 其中一个为确定性的 (deterministic), 另一个为随机性的(stochastic) xₜVₜξₜ,{V₁} 为确定性平稳序列…

基于SpringBoot的汽车配件销售管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

数图携手黄商集团,打造品类空间精细化管理体系!

数图合作伙伴又1 在这秋高气爽的时节,满怀激情地传递着喜人的消息:数图的合作伙伴队伍再次壮大。位于湖北黄冈的黄商集团,勇于拥抱时代发展的数字变革潮流,积极致力于探索精细化的品类空间管理之道,一步一个脚印&…

大模型日报|3 篇必读的大模型论文

大家好,今日必读的大模型论文来啦! 1.SocialGPT:贪婪分段提示优化实现社会关系推理 社会关系推理旨在从图像中识别朋友、配偶和同事等关系类别。虽然目前的方法采用了使用标注图像数据端到端训练专用网络的模式,但这些方法在通用…

Unity计算二维向量夹角余弦值和正弦值的优化方法参考

如果不考虑优化问题,计算两个向量的余弦值或者正弦值可以直接使用类似的方法: [SerializeField] Vector2 v1, v2;void Start() {float valCos Mathf.Acos(Vector2.SignedAngle(v1, v2));float valSin Mathf.Asin(Vector2.SignedAngle(v1, v2)); } 但是…

利用EasyExcel实现简易Excel导出

目标 通过注解形式完成对一个方法返回值的通用导出功能 工程搭建 pom <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance&qu…

Spring Boot框架:校园社团信息管理的现代化解决方案

3系统分析 3.1可行性分析 通过对本校园社团信息管理系统实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本校园社团信息管理系统采用SSM框架&#xff0c;JAVA作…

基于SpringBoot+Vue的前后端分离的大学自动排课系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 在这个背景下&#xf…

探索无线网IP地址:定义、修改方法及实践指南

在数字化时代&#xff0c;无线网络已成为我们日常生活和工作中不可或缺的一部分。它让我们能够随时随地接入互联网&#xff0c;享受信息交流的便利。然而&#xff0c;对于无线网络背后的技术细节&#xff0c;如IP地址&#xff0c;许多用户可能并不十分了解。IP地址&#xff0c;…

Spring IoC——IoC 容器的使用

1. 应用分层 应用分层是一种软件开发设计思想&#xff0c;它将应用程序分成 N 个层次&#xff0c;这 N 个层次分别负责各自的职责&#xff0c;多个层次之间协同提供完整的功能&#xff0c;根据项目的复杂度&#xff0c;可以分成三层&#xff0c;四层或更多层&#xff0c;MVC 就…

人工智能进程;算子加速的具体计算部分;大模型GPT5:参数18万亿;大模型面临问题

目录 人工智能进程 算子加速的简单理解,举例说明 一、简单理解 二、举例说明 一、算子加速的具体计算部分 二、举例说明 三、算子加速是否仅针对GPU 大模型GPT5:参数18万亿 大模型面临问题 算力集群设计框架 人工智能进程

深入理解Java集合:从基础到高级应用

深入理解Java集合&#xff1a;从基础到高级应用 1. 数组与集合的区别 1.1 相同点 数组和集合都是用于存储多个数据的容器&#xff0c;但它们的使用场景和特性各有不同。 1.2 不同点 长度&#xff1a;数组的长度在创建时就固定了&#xff0c;而集合的长度是动态可变的&…

【自动化测试之oracle数据库】MacOs如何安装oracle- client

操作系统为Mac OS&#xff0c;本地在pycharm上跑自动化脚本时&#xff0c;因为有操作oracle数据库的部分&#xff0c;所以需要安装oracle数据库的客户端&#xff0c;并install cx_oracle,本文主要介绍如何在macOS上完成安装&#xff0c;并在python自动化测试代码中配置&#xf…