20250221 NLP

1.向量和嵌入

https://zhuanlan.zhihu.com/p/634237861

encoder的输入就是向量,提前嵌入为向量

二.多模态文本嵌入向量过程


1.文本预处理

文本tokenizer之前需要预处理吗?

是的,文本tokenizer之前通常需要对文本进行预处理。预处理步骤可以包括以下内容:

1. 标准化

  • 大小写转换:将文本转换为统一大小写(通常是小写)以减少词汇表大小。
  • 去除标点符号:除去不必要的标点符号,保持文本的简洁。

2. 分词准备

  • 去除空白:清除多余的空格或换行符。
  • 特殊字符处理:处理特殊字符或符号,以确保分词的准确性。

3. 其他处理

  • 停用词过滤:根据任务需要,可以去除常见但无意义的停用词(如“的”、“和”等)。
  • 词干提取或词形还原:将单词还原到其基本形式,以统一表示。

这些预处理步骤帮助提高tokenizer的效率和准确性,确保生成的token序列更具一致性和可用性。

当然,这里是一个简单的文本预处理示例:

原始文本

"What is the animal?"

预处理步骤

  1. 大小写转换

    • 将文本转换为小写:
      "what is the animal?"
      
  2. 去除标点符号

    • 去掉问号:
      "what is the animal"
      
  3. 去除多余空格

    • 确保没有多余空格:
      "what is the animal"
      
  4. 停用词过滤(可选)

    • 如果需要,可以去掉停用词(如"is", "the"),具体取决于任务需求:
      "what animal"
      
  5. 词干提取或词形还原(可选)

    • 将单词还原到词干形式(如“running”变为“run”):
      "what animal"
      

结果

经过预处理,文本更为简洁,适合于tokenization和后续处理。预处理后的文本可以被tokenizer进一步分割为token序列,如:

["what", "animal"]

这些步骤帮助确保tokenizer的输出一致且易于模型处理。

2.tokenizer 字节对编码

例如BPE、WordPiece等分词模型构建词汇表(['low', 'est']),添加自增索引。

BPE(Byte Pair Encoding)本身不需要训练,但它确实需要一个过程来构建词汇表。这涉及从文本中统计频率和合并字符对。以下是一个示例来说明这个过程:

BPE构建过程示例

假设文本数据
"banana", "bandana"
步骤1:初始化
  • 将每个单词分解为字符序列:
    • b a n a n a
    • b a n d a n a
步骤2:统计频率
  • 统计所有相邻字符对的出现频率:
    • 'b a':2次
    • 'a n':3次
    • 'n a':3次
    • 'a n':3次
    • 'n d':1次
    • 'd a':1次
步骤3:合并高频对
  • 合并出现频率最高的字符对 'a n':
    • b an a n a
    • b an d a n a
步骤4:重复过程
  • 再次统计字符对:

    • 'b an':2次
    • 'an a':2次
    • 'n a':2次
    • 'an d':1次
    • 'd a':1次
  • 合并 'an':

    • ban a n a
    • ban d a n a
  • 继续合并,直到达到预定义的词汇表大小。

最终词汇表

  • 通过多次合并,最终得到一个包含字符和子词的词汇表:
    ['b', 'a', 'n', 'd', 'an', 'ban']
    

总结

  • BPE通过合并高频字符对,构建出一个高效的子词词汇表。
  • 这个过程不需要训练参数,但需要从数据中统计和合并字符对以创建词汇表。

3.embedding

通过子词索引在嵌入表中查找对应的嵌入向量。相似的语义信息的挨着。

文本嵌入表需要训练吗?还是LLM预训练模型自带的

文本嵌入表通常是需要训练的,但它可以是LLM预训练模型的一部分。在大型语言模型(LLM)的预训练过程中,嵌入表会随着模型其他参数一起优化,以便更好地捕捉词汇的语义信息。

两种常见情况

  1. 预训练模型自带

    • 许多大型语言模型在发布时已经包含了训练好的文本嵌入表。
    • 使用这些模型时,嵌入表可以直接应用于新任务。
  2. 自定义训练

    • 如果你使用自己的数据进行微调或训练新的模型,文本嵌入表会在训练过程中更新。
    • 嵌入表的参数会随着其他模型参数一起通过反向传播进行优化。

总结

文本嵌入表可以是预训练模型的一部分,也可以在特定任务中通过微调进行更新。嵌入表的质量对模型理解和生成文本的能力有重要影响。

在多模态大语言模型(MLLM)中,文本嵌入表可以是静态的,也可以是动态的,具体取决于模型的设计和使用的技术。

静态嵌入

  • 定义:每个词在训练开始时被分配一个固定的向量。
  • 特征
    • 嵌入在训练过程中不随上下文变化。
    • 常用于早期的嵌入技术,如Word2Vec和GloVe。
  • 优点:计算效率高,易于实现。
  • 缺点:无法捕捉词的上下文特征和多义性。

动态嵌入

  • 定义:词的嵌入根据上下文动态生成。
  • 特征
    • 嵌入向量在每个输入实例中可能不同。
    • 使用模型如BERT、GPT等。
  • 优点:能够更好地理解上下文,处理多义词。
  • 缺点:计算复杂度较高。

在MLLM中的应用

  • 静态嵌入:在一些简单或资源受限的应用中可能仍然使用。
  • 动态嵌入:在需要深度理解和复杂推理的任务中更为常见。

总结

在现代多模态模型中,动态上下文嵌入越来越普遍,它们能够提供更丰富的语义信息,适合复杂的跨模态任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/975063.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【HeadFirst系列之HeadFirst设计模式】第7天之命令模式:封装请求,轻松实现解耦!

命令模式:封装请求,轻松实现解耦! 大家好!今天我们来聊聊设计模式中的命令模式(Command Pattern)。如果你曾经需要将请求封装成对象,或者希望实现请求的撤销、重做等功能,那么命令模…

为Eclipse IDE安装插件IBM编程助手watsonx Code Assistant

从Eclipse IDE 安装 从Eclipse IDE 安装插件: _1、在Eclipse IDE 中,单击帮助菜单,然后选择EclipseMarketplace。 _2、根据您计划进行的工作类型选择安装方式: 有关代码建议、代码解释、代码文档和单元测试的集成生成式人工智能&a…

23. AI-大语言模型-DeepSeek简介

文章目录 前言一、DeepSeek是什么1. 简介2. 产品版本1. 类型2. 版本3. 参数规模与模型能力 3. 特征4. 三种访问方式1. 网页端和APP2. DeepSeek API 二、DeepSeek可以做什么1. 应用场景2. 文本生成1. 文本创作2. 摘要与改写3. 结构化生成 3. 自然语言理解与分析1. 语义分析2. 文…

基于WebRTC与AI大模型接入EasyRTC:打造轻量级、高实时、强互动的嵌入式音视频解决方案

随着物联网和嵌入式技术的快速发展,嵌入式设备对实时音视频通信的需求日益增长。然而,传统的音视频解决方案往往存在体积庞大、实时性差、互动体验不佳等问题,难以满足嵌入式设备的资源限制和应用场景需求。 针对以上痛点,本文将介…

Linux 驱动入门(6)—— IRDA(红外遥控模块)驱动

文章目录 一、编译替换内核和设备树二、IRDA(红外遥控模块)1. 红外遥控简介2. 红外遥控器协议3. 编程思路 三、驱动代码1. GPIO 实现1.1 驱动层代码1.2 应用层代码 2. 设备树实现2.1 修改设备树2.2 驱动层代码2.3 应用层代码 3. 上机测试 一、编译替换内…

hot100_139. 单词拆分

hot100_139. 单词拆分 思路 给你一个字符串 s 和一个字符串列表 wordDict 作为字典。如果可以利用字典中出现的一个或多个单词拼接出 s 则返回 true。 注意:不要求字典中出现的单词全部都使用,并且字典中的单词可以重复使用。 示例 1: 输入:…

ath9k(Atheros芯片)开源驱动之wifi连接

为什么会推荐这个wifi 驱动进行学习? ath9k(Atheros芯片):代码结构清晰,适合学习实践 为什么我只在开篇写了一个wifi连接的操作? 先让一个开源驱动在你的硬件上跑起来,再逐步修改&#xff0c…

win10把c盘docker虚拟硬盘映射迁移到别的磁盘

c盘空间本身就比较小、如果安装了docker服务后,安装的时候没选择其他硬盘,虚拟磁盘也在c盘会占用很大的空间,像我的就三十多个G,把它迁移到其他磁盘一下子节约几十G 1、先输入下面命令查看 docker 状态 wsl -l -v 2、如果没有停止…

PHP课程预约小程序源码

📱 课程预约小程序:为您专属定制的便捷预约新体验 在这个快节奏的时代,我们深知每一位瑜伽爱好者、普拉提追随者以及培训机构管理者对高效、便捷服务的迫切需求。因此,我们匠心独运,推出了一款基于PHPUniApp框架开发的…

Docker实战-使用docker compose搭建博客

docker run 部署 创建blog网络 [rootk8s-master ~]# docker network create blog 8f533a5a1ec65eae3f98c0ae5a76014a3ab1bf3c087ad952cdc100cc7a658948 [rootk8s-master ~]# docker network ls NETWORK ID NAME DRIVER SCOPE 8f533a5a1ec6 blog bridge …

javaEE-SpringBoot日志

一.日志的用途 平时我们使用日志,就是通过控制台打印一些信息,或者程序运行保存,查看控制台报错原因. 随着项⽬的复杂度提升, 我们对⽇志的打印也有了更⾼的需求, ⽽不仅仅是定位排查问题. ⽐如需要记录⼀些⽤⼾的操作记录(⼀些审计公司会要求), 也可能需要使⽤⽇志来记录⽤…

DeepSeek vs ChatGPT:AI 领域的华山论剑,谁主沉浮?

一、引言 在当今科技飞速发展的时代,人工智能(AI)已然成为推动各领域变革的核心力量。而在人工智能的众多分支中,自然语言处理(NLP)因其与人类日常交流和信息处理的紧密联系,成为了最受瞩目的领…

LangChain-基础(prompts、序列化、流式输出、自定义输出)

LangChain-基础 我们现在使用的大模型训练数据都是基于历史数据训练出来的,它们都无法处理一些实时性的问题或者一些在训练时为训练到的一些问题,解决这个问题有2种解决方案 基于现有的大模型上进行微调,使得它能适应这些问题(本…

数据库面试知识点总结

目录 1. MySQL 基础题1.1 执行⼀条 select / update 语句,在 MySQL 中发生了什么?1.2 MySQL 一行记录是怎么存储的? 2. 三大范式3. 数据库引擎3.1 Innodb3.2 MyISAM 4. 数据库索引4.1 索引分类4.2 索引优缺点4.3 索引使用场景4.4 优化索引方法…

Spring事务原理 二

在上一篇博文《Spring事务原理 一》中,我们熟悉了Spring声明式事务的AOP原理,以及事务执行的大体流程。 本文中,介绍了Spring事务的核心组件、传播行为的源码实现。下一篇中,我们将结合案例,来讲解实战中有关事务的易…

使用 C++ 和 gRPC 的常见陷阱及解决方案

文章目录 1. 环境配置的陷阱1.1 依赖版本冲突或混淆1.2 gRPC 工具缺失 2. 编译和链接的陷阱2.1 运行时库不匹配(/MT vs /MD)2.2 未解析的外部符号 3. Protobuf 文件生成的陷阱3.1 工具版本不匹配3.2 生成文件运行时库不一致 4. 运行时的陷阱4.1 缺少 DLL…

《深度学习实战》第2集:卷积神经网络(CNN)与图像分类

《深度学习实战》第2集:卷积神经网络(CNN)与图像分类 引言 卷积神经网络(Convolutional Neural Network, CNN)是深度学习在计算机视觉领域的核心工具。从早期的 LeNet 到现代的 ResNet 和 Vision Transformer&#xf…

创建Linux虚拟环境并远程连接

目录 下载VMware软件 下载CentOS 创建虚拟环境 远程连接Linux系统 下载VMware软件 不会的可以参考 传送门 下载CentOS 不会的可以参考 传送门 创建虚拟环境 打开VMware软件,创建虚拟机 选择典型安装 找到我们安装好的centOS文件,之后会自动检…

RV1126解码(5) read_vdec_thread线程

read_vdec_thread线程的用处 read_vdec_thread线程主要是获取每一帧VDEC解码数据,并打印出来每一帧数据的具体信息。 代码: //用于从 VDEC 解码器获取每一帧解码后的图像数据 void *read_vdec_thread(void *args) {pthread_detach(pthread_self());MED…

verilog笔记

Verilog学习笔记(一)入门和基础语法BY电棍233 由于某些不可抗拒的因素和各种的特殊原因,主要是因为我是微电子专业的,我需要去学习一门名为verilog的硬件解释语言,由于我是在某西部地区的神秘大学上学,这所…