【NLP251】BertTokenizer 的全部 API 及 使用案例

BertTokenizer 是 Hugging Face 的 transformers 库中用于处理 BERT 模型输入的分词器类。它基于 WordPiece 分词算法,能够将文本分割成词汇单元(tokens),并将其转换为 BERT 模型可以理解的格式。BertTokenizer 是 BERT 模型的核心工具之一,广泛用于自然语言处理任务。

以下是关于 BertTokenizer 的详细介绍,包括其功能、使用方法和一些高级特性。

 功能概述

BertTokenizer 的主要功能包括:

  1. 分词(Tokenization):将输入文本分割成词汇单元(tokens)。

  2. 编码(Encoding):将分词结果转换为 Token ID。

  3. 解码(Decoding):将 Token ID 转换回文本。

  4. 处理特殊标记:自动处理 [CLS][SEP][PAD] 等特殊标记。

  5. 生成模型输入:将文本转换为适合 BERT 模型的输入格式(包括 input_idsattention_mask)。

1. 初始化 BertTokenizer

BertTokenizer 可以通过以下两种方式初始化:

1.1 加载预训练模型的分词器

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")  # 使用预训练模型
  • from_pretrained 方法会自动下载并加载指定预训练模型的分词器配置和词汇表文件。

  • 常见的预训练模型包括 bert-base-uncasedbert-base-casedbert-base-chinese 等。

1.2 加载本地词汇表文件

tokenizer = BertTokenizer.from_pretrained("path/to/vocab.txt")  # 使用本地词汇表
  • 如果你有本地的词汇表文件(vocab.txt),可以直接加载。

2. 分词与编码

2.1 分词

BertTokenizer 使用 WordPiece 分词算法,将输入文本分割成词汇单元。

text = "这是一个测试文本。"
tokens = tokenizer.tokenize(text)
print("分词结果:", tokens)

分词结果示例

 

2.2 编码

将分词结果转换为 Token ID。

token_ids = tokenizer.convert_tokens_to_ids(tokens)  # 将 Token 转换为 ID
print("Token ID:", token_ids)  # 输出: [101, 102, 103, ...]

编码结果示例

2.3 解码

将 Token ID 转换回文本。

decoded_text = tokenizer.decode(token_ids, skip_special_tokens=True)
print("解码结果:", decoded_text)
skip_special_tokens 参数
  • 如果设置为 True,解码时会忽略特殊标记(如 [CLS][SEP])。

  • 如果设置为 False,解码结果会包含这些特殊标记。

解码结果示例

 

2.4 生成模型输入
inputs = tokenizer(
    text,
    max_length=60,  # 指定最大长度
    padding="max_length",  # 填充到最大长度
    truncation=True,  # 截断超出部分
    return_tensors="pt"  # 返回 PyTorch 张量
)
print("Input IDs:", inputs["input_ids"])  # 输出: tensor([[101, 102, ...]])
print("Attention Mask:", inputs["attention_mask"])  # 输出: tensor([[1, 1, ...]])

3. 参数解析

BertTokenizer__call__ 方法支持多种参数,用于控制分词和编码的行为。

3.1 参数说明
  • max_length:指定序列的最大长度。

  • padding:是否填充序列。可选值为 "max_length""longest"

  • truncation:是否截断超出 max_length 的部分。

  • return_tensors:返回的数据类型。可选值为 "pt"(PyTorch 张量)、"tf"(TensorFlow 张量)或 "np"(NumPy 数组)。


4. 分词器与模型结合

预处理后的输入可以直接用于 BERT 模型的推理。

from transformers import BertModel

# 加载预训练的 BERT 模型
model = BertModel.from_pretrained("bert-base-chinese")

# 使用分词器生成的输入进行推理
outputs = model(**inputs)

# 输出结果
print("Last Hidden State Shape:", outputs.last_hidden_state.shape)  # 输出: torch.Size([1, 60, 768])
print("Pooler Output Shape:", outputs.pooler_output.shape)  # 输出: torch.Size([1, 768])

5. 完整代码示例

以下是一个完整的示例,展示如何使用 BertTokenizerBertModel 进行文本处理和推理。

from transformers import BertTokenizer, BertModel

# 初始化分词器和模型
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
model = BertModel.from_pretrained("bert-base-chinese")

# 输入文本
text = "睡一觉醒睡不着咋搞的?"

# 生成模型输入
inputs = tokenizer(
    text,
    max_length=60,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)

# 模型推理
outputs = model(**inputs)

# 输出结果
print("Input IDs:", inputs["input_ids"])
print("Attention Mask:", inputs["attention_mask"])
print("Last Hidden State Shape:", outputs.last_hidden_state.shape)
print("Pooler Output Shape:", outputs.pooler_output.shape)

6. 特殊标记的处理

BERT 分词器会自动处理特殊标记(如 [CLS][SEP]),但也可以手动添加。

# 手动添加特殊标记
tokens = ["[CLS]"] + tokenizer.tokenize(text) + ["[SEP]"]
token_ids = tokenizer.convert_tokens_to_ids(tokens)

7. 多文本处理

BertTokenizer 也支持批量处理多个文本。

texts = ["这是一个测试文本。", "另一个文本。"]
inputs = tokenizer(
    texts,
    max_length=60,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)

8. 获取隐藏层和注意力权重

如果需要获取模型的中间层输出(如隐藏层或注意力权重),可以在模型初始化时设置相关参数。

model = BertModel.from_pretrained("bert-base-chinese", output_hidden_states=True, output_attentions=True)
outputs = model(**inputs)
print("Hidden States:", outputs.hidden_states)  # 每一层的隐藏层输出
print("Attentions:", outputs.attentions)  # 每一层的注意力权重

9. 使用预训练的下游任务模型

如果使用的是针对特定任务(如分类或命名实体识别)的预训练模型,可以直接加载对应的模型。

from transformers import BertForTokenClassification

# 加载预训练的命名实体识别模型
tokenizer = BertTokenizer.from_pretrained("dbmdz/bert-large-cased-finetuned-conll03-english")
model = BertForTokenClassification.from_pretrained("dbmdz/bert-large-cased-finetuned-conll03-english")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/970930.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SOCKET建立简单的tcp服务端与客户端通信

socket是什么 socket可以使两台机子建立连接,就像连接风扇与电源的插座一样,socket可以使服务端与客户端建立连接,服务端就像供电厂,而客户端就像用电器,而socket就是连接二者的插座。 建立简单的连接 如果我们想在客…

机试刷题_字符串的排列【python】

题目:字符串的排列 from os import dup # # 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可 # # # param str string字符串 # return string字符串一维数组 # class Solution:def backtrack(self,res,state,choi…

PostgreSQL有undo表空间吗?

PostgreSQL有undo表空间吗 PostgreSQL 没有单独的 Undo 表空间,其事务回滚和多版本并发控制(MVCC)机制与 Oracle 等数据库有显著差异。 一 PostgreSQL 的 MVCC 实现 PostgreSQL 通过 多版本并发控制(MVCC) 管理事务…

CI/CD(二)docker-compose安装Jenkins

1、docker-compose.yml version: 3.8services:jenkins:image: jenkins/jenkins:lts # 使用官方的 Jenkins LTS 镜像container_name: jenkinsuser: root # 如果需要以 root 用户运行ports:- "8080:8080" # Jenkins Web 界面端口- "50000:50000" # 用于 Jen…

MySQL数据库(八)☞ 我是不是锁神

目录 1 全局锁的应用 2 索引对行锁的影响 3 表锁(显式)--表级锁 4 元数据锁 MDL(隐式)--表级锁 5 意向锁(Intention)--IS锁 IX锁--表级锁(隐式) 6 记录锁-(Record)-S锁 X锁 -- 行级锁 7 如何理解select ... lock in share …

rayTrace 采样

RayTrace in the rest of your life 蒙特卡洛积分 其大致内容大家可以自行去搜索,还是比较直观。上面的连接讲了不同的函数使用蒙特卡洛的例子 使用重要性采样 这里的重要性采样是通过pdf的值来决定的。这里有一个混淆点,一个是scatterPDF一个是Samp…

日常工作管理软件比较:6款工具的优缺点深度分析

本文介绍了6款广受欢迎的日常工作管理软件,包括:1. Worktile;2. Asana;3. Wrike;4. Teambition;5. Todoist;6. Notion。 在项目管理中,进度规划是确保项目按时完成的重要环节。无论是…

try learning-git-branching

文章目录 mergerebase分离 HEAD相对引用利用父节点branch -f 撤销变更cherry-pick交互式 rebase只取一个提交记录提交的技巧rebase 在上一次提交上amendcherry-pick 在上一次提交上 amend tag多分支 rebase两个parent节点纠缠不清的分支偏离的提交历史锁定的Main推送主分支合并…

「软件设计模式」单例模式(Singleton)

深入解析单例模式:从思想到C实战实现 一、设计模式与单例模式思想 1.1 设计模式的价值 设计模式是软件工程领域的经验结晶,如同建筑领域的经典蓝图。它们提供了经过验证的解决方案模板,能有效解决以下问题: 提高代码复用性提升…

ICRA-2025 | 具身导航如何跨越地形障碍?SARO:通过视觉语言模型实现地形穿越

作者:Shaoting Zhu, Derun Li, Linzhan Mou, Yong Liu, Ningyi Xu, Hang Zhao 单位:清华大学交叉信息研究院,上海交通大学电子信息与电气工程学院,浙江大学计算机科学与技术学院,宾夕法尼亚大学GRASP实验室&#xff0…

驱动开发、移植(最后的说法有误,以后会修正)

一、任务明确:把创龙MX8的驱动 按照我们的要求 然后移植到 我们的板子 1.Linux系统启动卡制作, sd卡 先按照 《用户手册—3-2-Linux系统启动卡制作及系统固化》 把创龙的Linux系统刷进去。 2. 把TLIMX8-EVM的板子过一遍 把刚刚烧好系统的sd卡插入 创…

免费deepseek的API获取教程及将API接入word或WPS中

免费deepseek的API获取教程: 1 https://cloud.siliconflow.cn/中注册时填写邀请码:GAejkK6X即可获取2000 万 Tokens; 2 按照图中步骤进行操作 将API接入word或WPS中 1 打开一个word,文件-选项-自定义功能区-勾选开发工具-左侧的信任中心-信任中心设置…

机器学习:k均值

所有代码和文档均在golitter/Decoding-ML-Top10: 使用 Python 优雅地实现机器学习十大经典算法。 (github.com),欢迎查看。 在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律&…

文档搜索工具项目-测试报告

目录 1.项目背景 2.测试环境 3.测试计划 3.1功能测试 3.2自动化测试 1.项目背景 主要采用了前后端分离的方式来实现,把整个项目分成前端模块,索引模块,搜索模块,同时将其布置到云服务器中。该搜索引擎只是基于java API的站内…

Field ‘id‘ doesn‘t have a default value

1.程序测试时,运行到向数据库插入数据时,报以下异常 是id没有默认值; 在测试单元内单独向该数据库插入数据,报同样的异常,确定了异常的定位 2.项目时采用mybatisPlus操作数据库,报异常的数据库和另外一个数据库关联,主键ID和另外一个数据库相同,通过读取另外一个数据库的ID获…

hive:分桶表和分区表的区别, 分桶表,抽样查询

分桶表和分区表的区别 分桶表 建表语法 clustered by 聚类依据 示例 创建分桶表 加载数据到分桶表(错误) load data local inpath /home/sjh/ft.txt into table sjh.ft; 报错: 提示设置 >>set hive.strict.checks.bucketingfalse 作用是关闭 Hive 中的一个严格检查…

【NLP251】命名实体实战(基于Transformer分类)

1. 查看数据集 json解析工具:JSON 在线解析 | 菜鸟工具 快速了解json文件内容分布 2.构建项目框架 project_root/ │ ├── src/ │ ├── medical_ner/ │ │ ├── datas/ │ │ │ ├── __init__.py │ │ │ ├── bmeso_ner_label…

欧洲分组加密算法之Kasumi

目录 (1)FL函数 (2)FO函数 (3)FI函数 密钥扩展算法 欧洲分组加密算法之Kasumi Kasumi分组密码算法是由欧洲标准机构ETSI(European Telecommunications Standards Institute)下属的安全算法组于1999年设计的,被用于构造A5/3、GEA3、f8和f9算法,参与移动通信系统无线…

SpringBoot速成(12)文章分类P15-P19

1.新增文章分类 1.Postman登录不上,可以从头registe->login一个新的成员:注意,跳转多个url时,post/get/patch记得修改成controller类中对应方法上写的 2.postman运行成功: 但表中不更新:细节有问题: c是…

登录弹窗效果

1,要求 点击登录按钮,弹出登录窗口 提示1:登录窗口 display:none 隐藏状态; 提示2:登录按钮点击后,触发事件,修改 display:block 显示状态 提示3:登录窗口中点击关闭按钮&#xff0…