1、简介
Hugging Face 的 Tokenizers 库提供了一种快速和高效的方式来处理(即分词)自然语言文本,用于后续的机器学习模型训练和推理。这个库提供了各种各样的预训练分词器,如 BPE、Byte-Pair Encoding (Byte-Level BPE)、WordPiece 等,这些都是现代 NLP 模型(如 BERT、GPT-2、RoBERTa 等)广泛使用的分词方法。
龙芯的Python仓库安装的tokenizers运行时候会报如下错误No module named 'tokenizers.tokenizers':
本篇文章主要讲解下载龙芯loongarch64服务器上如何正确编译安装tokenizers。
2、安装
pip3 install tokenizers
直接拉取安装的时候会报如下错误:
这是在编译子模块maturin的时候报的错,可以查询以下两篇文章: