了解参数高效微调技术,如LoRA,如何利用有限的计算资源对大型语言模型进行高效适应。
PEFT概述:最先进的参数高效微调技术
- 什么是PEFT
- 什么是LoRA
- 用例
- 使用PEFT训练LLMs
- 入门
- PEFT配置
- 4位量化
- 封装基础Transformer模型
- 保存模型
- 加载模型
- 推理
- 结论
什么是PEFT
随着大型语言模型(LLMs)如GPT-3.5、LLaMA2和PaLM2在规模上不断扩大,对它们在下游自然语言处理(NLP)任务上进行微调变得越来越耗费计算和内存资源。
参数高效微调(PEFT)方法通过仅微调少量额外的参数,同时冻结大多数预训练模型,解决了这些问题。这可以防止在大型模型中发生灾难性遗忘,从而使有限的计算资源能够进行微调。
PEFT已经在图像分类和文本生成等任务上证明了其有效性,同时仅使用了模型参数的一小部分。微调后的小权重可以简单地添加到原始的预训练权重中。
你甚至可以在Google Colab的免费版本上使用4位量化和PEFT技术QLoRA微调LLMs。
PEFT的模块化性质还允许通过添加小的任务特定权重,将相同的预训练模型适应于多个任务,避免了存储完整副本的需要。
PEFT库集成了像LoRA、Prefix Tuning、AdaLoRA、Prompt Tuning、MultiTask Prompt Tuning和LoHa等流行的PEFT技术,并与Transformers和Accelerate一起使用。这提供了轻松访问高效且可扩展微调的尖端大型语言模型。
什么是LoRA
在本教程中,我们将使用最流行的参数高效微调(PEFT)技术之一,称为LoRA(大型语言模型的低秩适应)。LoRA是一种显著加速大型语言模型微调过程并消耗更少内存的技术。
LoRA背后的关键思想是使用低秩分解实现两个较小矩阵表示权重更新。通过训练这些矩阵,它们可以适应新的数据,同时最小化总体修改次数。原始权重矩阵保持不变,不进行进一步调整。最终结果通过将原始权重和适应后的权重组合而得到。
使用LoRA有几个优势。首先,它通过减少可训练参数的数量极大地提高了微调的效率。此外,LoRA与各种其他参数高效方法兼容,并且可以与它们结合使用。使用LoRA微调的模型表现出与完全微调的模型相媲美的性能。重要的是,LoRA不引入任何额外的推理延迟,因为适配器权重可以与基本模型无缝合并。
用例
PEFT有许多用例,从语言模型到图像分类器。您可以在官方文档中查看所有用例的教程。
- StackLLaMA:使用RLHF训练LLaMA的实践指南
- Finetune-opt-bnb-peft
- 使用LoRA和Hugging Face进行Efficient flan-t5-xxl训练
- 使用LoRA进行DreamBooth微调
- 使用LoRA进行图像分类
使用PEFT训练LLMs
在本节中,我们将学习如何使用’bitsandbytes’和‘peft’库加载和包装我们的变压器模型。我们还将涵盖加载保存的微调QLoRA模型并进行推断的过程。
入门
首先,我们将安装所有必要的库。
%pip install accelerate peft transformers datasets bitsandbytes
接下来,将导入必要的模块,并使用基本模型(Llama-2-7b-chat-hf)进行fine-tune,使用mlabonne/guanaco-llama2-1k数据集进行微调。
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import get_peft_model, LoraConfig
import torch
model_name = "NousResearch/Llama-2-7b-chat-hf"
dataset_name = "mlabonne/guanaco-llama2-1k"
PEFT配置
创建用于包装或训练模型的PEFT配置。
peft_config = LoraConfig(
lora_alpha=16,
lora_dropout=0.1,
r=64,
bias="none",
task_type="CAUSAL_LM",
)
4位量化
开发者或Colab GPU在加载LLMs面临重大挑战。然而,通过使用BitsAndBytes实现具有NF4类型配置的4位量化技术,我们可以克服这个问题。通过采用这种方法,我们可以有效地加载我们的模型,从而节省内存并防止机器崩溃。
compute_dtype = getattr(torch, "float16")
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=False,
)
封装基础Transformer模型
为了使模型参数高效,将使用get_peft_model
封装基础的Transformer模型。
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()
可训练参数比基础模型少,使能够使用更少的内存并更快地微调模型。
trainable params: 33,554,432 || all params: 6,771,970,048 || trainable%: 0.49548996469513035
接下来是训练模型的步骤。可以按照4位量化和QLoRA指南进行操作。
保存模型
训练后,可以将模型适配器保存在本地。
model.save_pretrained("llama-2-7b-chat-guanaco")
或者,将其推送到Hugging Face Hub。
!huggingface-cli login --token $secret_value_0
model.push_to_hub("llama-2-7b-chat-guanaco")
正如所见,模型适配器仅为134MB,而基础的LLaMA 2 7B模型约为13GB。
加载模型
要运行模型推断,首先必须使用4位精度量化加载模型,然后将训练过的PEFT权重与基础(LlaMA 2)模型合并。
from transformers import AutoModelForCausalLM
from peft import PeftModel, PeftConfig
import torch
peft_model = "kingabzpro/llama-2-7b-chat-guanaco"
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
model = PeftModel.from_pretrained(base_model, peft_model)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = model.to("cuda")
model.eval()
推理
为了运行推理,必须按照guanaco-llama2-1k数据集的风格编写提示(“[INST] {prompt} [/INST]”)。否则,将得到不同语言的响应。
prompt = "What is Hacktoberfest?"
inputs = tokenizer(f"<s>[INST] {prompt} [/INST]", return_tensors="pt")
with torch.no_grad():
outputs = model.generate(
input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=100
)
print(
tokenizer.batch_decode(
outputs.detach().cpu().numpy(), skip_special_tokens=True
)[0]
)
output
[INST] What is Hacktoberfest? [/INST] Hacktoberfest is an open-source software development event that takes place in October. It was created by the non-profit organization Open Source Software Institute (OSSI) in 2017. The event aims to encourage people to contribute to open-source projects, with the goal of increasing the number of contributors and improving the quality of open-source software.
During Hacktoberfest, participants are encouraged to contribute to open-source
结论
像LoRA这样的参数高效微调技术使得仅使用部分参数就能高效微调大型语言模型成为可能。这避免了昂贵的完全微调,并使得在有限的计算资源下进行训练成为可能。PEFT的模块化性质允许将模型调整为多个任务。像4位精度这样的量化方法可以进一步减少内存使用。总体而言,PEFT将大型语言模型的能力开放给了更广泛的用户群体。