NLP入门——数据预处理:子词切分及应用

BPE(Byte-Pair Encoding)算法

【西湖大学 张岳老师|自然语言处理在线课程 第十六章 - 4节】BPE(Byte-Pair Encoding)编码

如果有一个字符串aabaadaab,对其执行BPE算法
因为字符对aa出现频率最高,因此将其替换为码Z,这时原字符串变为ZbZdZb
此时字符对Zb出现频率最高,将其替换为码Y,此时原字符串变为YZdY
此时字符串中所有字符对频率都一样,都是一次。

在这里插入图片描述
利用BPE算法做子词切分需要两个步骤:

  1. 利用一个大的corpus建立一个子词表(subword vocabulary)以及字节对(token pairs)。
  2. 利用这个子词表和字节对来对新的语料进行子词切分。

首先是第一个任务:
在这里插入图片描述
这里首先子词表中应该包含所有的单个字符,随后我们在corpus中寻找出现频率最高的subword pair,这里是st出现了3+4+1=8次。
在这里插入图片描述
将s,t这个subword pair计入token pair表格中,并将他们组合后添加到子词表中,再次寻找出现频率最高的子词对。
在这里插入图片描述
同上,e,st为出现频率最高的subword pair,继续添加出现频率最高的子词对。
在这里插入图片描述
在添加过be这个子词对后,剩下在corpus的子词对中的子词频率都是一次,因此结束运算。

我们将subword pair表按照频率降序排序,随后对新词按照表格中频率由高到低进行分词。
如果我们对best这个词进行子词切分:

  1. 首先得到b,e,s,t四个子词,接着在token pair表格中进行匹配,发现s,t的子词对组合频率最高,因此将其合并。
  2. 得到了b,e,st这三个子词,我们继续在token pair进行匹配,发现e,st的子词对组合频率最高,因此将其合并。
  3. 得到了b,est这两个子词,随后token pair中没有可以匹配的对象,切分完成。

为了能够还原子词,我们在b后加两个@@,因此best被切分为b@@ + est这两个子词。每当我们还原时,遇到一个以@@结尾的子词,我们将其与后面的子词合并,并去掉@@符号,最终子词序列中没有@@符号为止,即还原了原词序列。

利用subword-nmt实现bpe算法

github subword-nmt
使用pip进行安装:pip install subword-nmt

:~/nlp/token$ subword-nmt learn-bpe -s 32000 < en.tc > en.cds &
:~/nlp/token$ subword-nmt learn-bpe -s 32000 < zh.tok > zh.cds &

-s后是学习的词数量,en.tc、zh.tok分别为上一节处理后的英文、中文文本,en.cds、zh.cds是输出文件。
查看学习到的zh.cds文件:
在这里插入图片描述之后我们可以用apply-bpe利用规则文件对corpus进行切分:

:~/nlp/token$ subword-nmt apply-bpe -c zh.cds < zh.tok > zh.bpe

运行后我们查看zh.bpe文件:
在这里插入图片描述
我们可以看到3377被拆成了33@,77以及横行被拆成了横@行,我们统计拆分前后的词表中词的数量:

#vcb.py
#encoding: utf-8

import sys

def count(srcf):
    vcb={}#创建一个空字典
    with open(srcf,"rb") as frd:
        for line in frd:
            tmp = line.strip()
            if tmp:
                for word in tmp.decode("utf-8").split():#利用split()将每行的词提取出来
                    vcb[word] = vcb.get(word,0) + 1#字典的get方法,如果vcb[word]存在就取值,若不存在返回0
                    #统计每个子词出现的频次
    return vcb              

if __name__=="__main__":
    print(len(count(*sys.argv[1:])))#len为出现的不同子词的个数

在命令行输入:

:~/nlp/token$ python vcb.py zh.bpe 
43050
:~/nlp/token$ python vcb.py zh.tok 
630306

可以看到执行bpe算法后,词表大小被大大减少。

进一步缩减bpe算法产生的词表

在zh.bpe文件中,会有很多低频的、只出现一次或两次的词,例如 “非洲统一组织“ ,若拆成 “非洲”、“统一”、“组织”,则这三个词每个词的频率都会高于拆之前的词。
因此我们需要统计每个子词的频率来决定阈值:

:~/nlp/token$ subword-nmt get-vocab < zh.bpe > zh.vcb
:~/nlp/token$ tail zh.vcb 
不伦@@ 1
® 11
ƒ 1
布拉柴@@ 1
別@@ 11111

查看文件的尾部,发现很多子词的频率为1,只出现过一次。

:~/nlp/token$ subword-nmt apply-bpe -c zh.cds --vocabulary zh.vcb --vocabulary-threshold 8 < zh.tok > zh.bpe

对词表设置阈值为8后,重新得到新的bpe算法处理后的文件,再次统计词表的长度:

:~/nlp/token$ python vcb.py zh.bpe 
42590

可以看到,由于词频低于8的词都被过滤掉,词表被进一步缩减。

unigram算法

利用sentencepiece运行unigram算法

sentencepiece安装:pip install sentencepiece github-sentencepiece
unigram算法总结-huggingface
unigram算法原文
在终端输入以下命令:

:~/nlp/normalize$ spm_train --input=uni.zh --model_prefix=unizh --vocab_size=32000 ---character_coverage --model_type=unigram --input_sentence_size=1048576 --shuffle_input_sentence --train_extremely_large_corpus

在这里插入图片描述
如图所示的参数说明:
--input:输入数据是原始的语料文件,因此我们选择最初的uni.zh未经过处理的文件。
--model_prefix:输出训练后模型文件的前缀名,后缀为.model
--vocab_size:输入模型训练的词数
--character_coverage:我们选用的是联合国的中文语料,推荐中文日文等丰富字(母)语言设置为0.9995,其他设置为1。代表字母的覆盖率,默认为0.9995。
--model_type:指定训练模型的类型,我们欲使用sentencepiece完成unigram算法,因此参数设置为默认(unigram)。
另外,我们添加了其他的帮助提升训练效果的参数:
--input_sentence_size:限制了训练数据中加载的最大句长
--shuffle_input_sentence:将输入每行句子先做乱序处理,再输入训练模型
--train_extremely_large_corpus:针对输入是很大的语料规模做优化,默认为false,但只要在命令行出现就自动设置为true,未出现则为默认值false。

运行完成后,我们查看unizh.vocab文件,存储的是所有的子词以及他们出现概率的负对数:
在这里插入图片描述

我们利用训练完成的model进行子词切分,在命令行输入:

 :~/nlp/normalize$ spm_encode --model=unizh.model  < uni.zh > zh.spm

传入最初原始的raw text,利用训练好的模型得到分词后的文件,查看zh.spm文件:
在这里插入图片描述
这是对原始语料进行处理后的分词文件,可以看到分词后的结果。利用spm_decode可以还原原始数据:

:~/nlp/normalize$ spm_decode --model=unizh.model < zh.spm > zh.despm

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/704003.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Shell环境下的脚本编程与应用

Shell是什么&#xff1f; Shell 是一个命令行解释器&#xff0c;它接收用户输入的命令&#xff08;如 ls、cd、mkdir 等&#xff09;&#xff0c;然后执行这些命令。Shell 同时还是一种功能强大的编程语言&#xff0c;允许用户编写由 shell 命令组成的脚本&#xff08;script&…

vivado HW_SIO_RX

HW_SIO_RX 描述 在硬件设备上&#xff0c;每个GT包括一个独立的接收器hw_sio_rx 由一个PCS和一个PMA组成。高速串行数据从板上的迹线流入 GTX/GTH收发器RX的PMA&#xff0c;进入PCS&#xff0c;最后进入FPGA逻辑。 相关对象 HW_SIO_RX对象与HW_server、HW_target、HW_device、H…

第20篇 Intel FPGA Monitor Program的使用<三>

Q&#xff1a;如何用Intel FPGA Monitor Program创建汇编语言工程呢&#xff1f; A&#xff1a;我们用一个Nios II汇编语言简易应用程序来发掘Intel Monitor FPGA Program软件的一些功能特性&#xff0c;并介绍创建工程的基本步骤。该程序可以实现找到存储在存储器中的32位整…

Electron+Vue开源软件:洛雪音乐助手V2.8畅享海量免费歌曲

洛雪音乐助手是一款功能全面且完全免费的开源音乐软件&#xff0c;支持在Windows、Android和iOS平台上使用。 平台支持&#xff1a; 桌面版&#xff1a;采用Electron Vue技术栈开发&#xff0c;支持Windows 7及以上版本、Mac OS和Linux&#xff0c;具有广泛的用户群体覆盖。 …

opencv roi改进版

点击鼠标左键开始画roi,右键或者回车代表画框完毕 并且做了封装。 import cv2 import numpy as npclass ROIDrawer:def __init__(self, image_path):self.drawing = Falseself.ix, self.iy = -1, -1self.roi = Noneself.image_o = cv2.imread(image_path)self.image = self.…

LeetCode | 21.合并两个有序链表

这道题也是很经典的一道题了&#xff0c;408的算法题中也考过这个思想&#xff0c;因为两个链表已是升序&#xff0c;合并只需要两个指针&#xff0c;分别指向两个表的表头&#xff0c;分别比较两个指针所指向的结点的val&#xff0c;小的就插入到目标链表里面&#xff0c;再后…

火车头采集怎么使用GPT等AI原创文章

火车头采集官方并没有GPT、百度文心一言AI、阿里通义千问AI、Kimi大模型等AI功能&#xff0c;但支持接入插件&#xff0c;可以编写相应人工智能AI原创文章插件&#xff08;火车头采集支持PHP和c#这2种语言的插件编写&#xff09;&#xff0c;或者导入第三方封装好的GPT等AI原创…

使用PHP对接企业微信审批接口的问题与解决办法(二)

在现代企业中&#xff0c;审批流程是非常重要的一环&#xff0c;它涉及到企业内部各种业务流程的规范和高效运转。而随着企业微信的流行&#xff0c;许多企业希望将审批流程整合到企业微信中&#xff0c;以实现更便捷的审批操作。本文将介绍如何使用PHP对接企业微信审批接口&am…

栈(Stack)汇总

栈简介 栈&#xff08;Stack&#xff09;是只允许在一端进行插入或者删除操作的线性表。它的操作特性可以概括为——后进先出&#xff08;Last In First Out&#xff0c;LIFO&#xff09;。栈顶&#xff08;Top&#xff09;——线性表允许进行插入删除的一端&#xff1b; 栈底…

Springboot(若依)国际化配置接口访问后返回????????

最近使用若依的框架进行二次开发&#xff0c;配置了国际化&#xff0c;application.yml配置英文时没问题&#xff0c;但配置中文basename: i18n/messages_zh_CN&#xff0c;访问接口就直接返回的???&#xff0c;如图&#xff1a; 于是检查了I18nConfig文件&#xff0c;没配错…

读AI未来进行式笔记11丰饶时代与奇点

1. 第四次工业革命 1.1. 在AI轰轰烈烈地拉开第四次工业革命帷幕的同时&#xff0c;一场清洁能源革命也紧锣密鼓地展开 1.1.1. 清洁能源革命好比一场“及时雨”&#xff0c;不但将解决日益加剧的全球气候变化问题&#xff0c;而且会大幅降低全世界的电力成本 1.1.2. 人们将致…

美式动漫效果PS图层样式

对于追求独特艺术风格和创意的摄影师和设计师来说&#xff0c;一款能够轻松将照片转化为卡通效果的Photoshop模板无疑是一个强大的工具。这款由专业团队精心打造的模板&#xff0c;特别注重于美式动漫风格的呈现&#xff0c;让您的照片瞬间拥有生动且充满魅力的动漫色彩。 模板…

AI播客下载:AI在商业中的应用(The AI in Business Podcast)

"AI在商业中的播客"是为那些需要寻找AI机会、将AI能力与战略对齐并实现投资回报的非技术商业领袖准备的。 每周&#xff0c;Emerj人工智能研究公司的首席执行官Daniel Faggella会采访来自财富500强公司和独角兽初创公司的顶级AI高管&#xff0c;以揭示趋势、用例和最…

ISO 26262《道路车辆功能安全》

ISO 26262是关于道路车辆功能安全的国际标准&#xff0c;专门针对总重不超过3.5吨的八座乘用车及其安全相关电子电气系统&#xff08;E/E系统&#xff09;的功能安全而制定。以下是关于ISO 26262的详细解释&#xff1a; 一、背景与目的 ISO 26262是在2011年11月15日正式发布的…

Android Studio项目升级报错:Namespace not specified

原项目升级AGP到8.0时报错&#xff1a; Namespace not specified. Specify a namespace in the modules build file: C:\Users\Administrator\Desktop\MyJetpack\app\build.gradle. See https://d.android.com/r/tools/upgrade-assistant/set-namespace for information about…

鸿蒙轻内核A核源码分析系列五 虚实映射(6)虚拟映射修改转移

6.1 映射属性修改函数LOS_ArchMmuChangeProt 函数LOS_ArchMmuChangeProt用于修改进程空间虚拟地址区间的映射保护属性&#xff0c;其中参数archMmu为进程空间的MMU结构体&#xff0c;vaddr为虚拟地址&#xff0c;count为映射的页数&#xff0c;flags为映射使用的新标签属性信息…

kafka 快速上手

下载 Apache Kafka 演示window 安装 编写启动脚本,脚本的路径根据自己实际的来 启动说明 先启动zookeeper后启动kafka,关闭是先关kafka,然后关闭zookeeper 巧记&#xff1a; 铲屎官&#xff08;zookeeper&#xff09;总是第一个到&#xff0c;最后一个走 启动zookeeper call bi…

论文阅读ReLU-KAN和Wav-KAN

这是我读KAN系列论文的第三篇&#xff0c;今天把两篇论文放在一起写&#xff0c;分别是&#xff1a; ReLU-KAN&#xff1a; https://arxiv.org/abs/2406.02075 Wav-KAN&#xff1a; https://arxiv.org/abs/2405.12832 之所以放在一起&#xff0c;是因为这两篇论文针对KAN的…

用映射对比ab俩个数组 , 并把a的参数传递给b

项目背景 : react ant 需求 : 在项目进行表头设置时,根据aaa中的key和bbb中的name对应 , 并将sort值插入到bbb中 其中 a b 结构如下 具体实现 aaa[ { key: "orderNumber", orderNumber: "工单编号", sort: 1 } ... ]bbb [ { name: "orderNumber…

运行mvn命令打包项目jar包报错?“Fatal error compiling: 无效的目标发行版: 19 ”, 让我来看看~

最近写实验&#xff0c;要打包项目&#xff0c;但是不管是在cmd运行“mvn clean package -Dmaven.test.skiptrue”命令&#xff0c;还是在idea上去操作&#xff0c;都出现了这样的一个错误&#xff1a; [EROR] Failed to exeoute goal org.apache.maven.plugins:maven-comnpile…