大模型量化技术-GPTQ
2022年,Frantar等人发表了论文 GPTQ:Accurate Post-Training Quantization for Generative Pre-trained Transformers。
这篇论文详细介绍了一种训练后量化算法,适用于所有通用的预训练 Transformer模型,同时只有微小的性能下降。
GPTQ算法需要通过对量化模型进行推理来校准模型的量化权重。详细的量化算法在原始论文中有描述。
基于auto-gptq
开源实现库,transformers 支持使用GPTQ算法量化的模型。
GPTQ:Accurate