picoLLM：大模型的量化魔术师上

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba，xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

Picovoice首席执行官Alireza Kenarsari指出，“picoLLM是Picovoice 深度学习研究人员和量产工程师共同努力的成果。前者研究出X 位量化算法，而后者构建了跨平台的LLM 推理引擎。目的还是在于将LLM遍及到任何设备且将控制权交还给企业”。

picoLLM Inference可以免费使用，没有任何使用限制。无论是在PC上工作，还是为数百万用户提供服务。只需几行代码即可部署。

注：其余的产品线有非商用免费版，也有收费版

认识量化（Quantization）

大模型有个基本的指标就是模型参数规模，客观而言参数规模越大，效果越佳，但是所需的内存越多。例如，要部署 7.7GB 大小的Mistral 7B，需要GPU的VRAM大小要超过8GB才能在GPU完全加载。因此意味着运行更大规模的模型将需要具有更大规格的硬件，从而增加成本。

量化是一种压缩技术，将高精度值映射到低精度值。对于任意的大模型，这意味着它们的权重和激活精度会被调整，肯定会对影响模型的能力。在实际的运用过程中发现，某些情况下虽然明显的减低精度，然而却又能获得和原来不相上下的结果。

量化通过降低内存带宽需求和提高缓存利用率来提高性能，不同精度级别的量化过程能够更多的设备上运行大模型。

LLMs通常使用全精度（float32）或半精度（float16）的浮点数进行训练。一个float16有16位，即2个字节。因此在 FP16上训练参数规模为1B的大模型则至少需要2GB的内存，这还不包括训练过程中的优化器内存、激活内存和梯度内存。

量化其实就是想找到一种方法，将FP32权重的值的范围([最小值，最大值])表示为较低精度的值，例如FP16甚至INT4（整数 4 位）的数据类型。典型的情况是从FP32到INT8。

下图为一个具体的例子，将FP16格式的数组量化为INT8的过程，当然最后可以从INT8再次还原为FP16。这样一来原来模型的存储大小就被有效的降低了。

其实换个思路来讲，就是将数轴进行压缩。这里的难题在于如何的量化才能降低存储开销，但是又能表达出原来的意思。

目前有不少的量化思路，均匀量化是模型量化中常用的一种技术，用于降低深度学习模型中权重和激活的精度。在量化过程中将值的范围划分为固定数量的等距区间，然后将每个值映射到最近区间的中心。此过程有助于减少表示每个值所需的位数。

与更复杂的量化技术相比，均匀量化的主要优势之一是其简单易用。然而，均匀量化可能并不总是能捕捉到数据分布的细微差别。想象一下原始参数的取值在[3.5, 3.9]，若都被量化到4，的确会导致潜在的信息丢失和性能下降。

另一方面，非均匀量化允许量化步距不均匀分布，从而能更准确和更灵活。量化过程由离散量化水平（Xi）和相应的量化步骤（∆i）定义。当实数落在特定的量化步骤范围（∆i， ∆i+1）内时，量化器将其分配到相应的量化级别（Xi）。非均匀量化方法（如对数分布）侧重于以指数而不是线性方式调整量化步骤和水平，这可以通过有效捕获重要值区域来提高准确性。