政安晨的AI大模型训练实践十一 - 基于千问的Qwen2.5-VL-3B-Instruct 多模态模型进行微调参数认知 2

政安晨的个人主页：政安晨

欢迎 👍点赞✍评论⭐收藏

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！

微调一个大模型要准备的背景知识还是很多的。本节我们介绍训练阶段的一些主要参数。

这是训练阶段的一些基本参数：

在AI大模型训练阶段，这些基本参数的含义如下：

学习率（Learning Rate） ：这是AdamW优化器的初始学习率。学习率决定了模型在每次迭代中更新权重的步长大小。过高的学习率可能导致模型无法收敛，而过低的学习率则会使训练过程变得非常缓慢。
训练轮数（Training Epochs） ：这是需要执行的训练总轮数。一个epoch表示整个数据集被完整地遍历一次。训练轮数越多，模型有机会更好地学习数据中的模式，但也可能增加过拟合的风险。
最大梯度范数（Max Gradient Norm） ：这是用于梯度裁剪的参数。梯度裁剪是一种防止梯度爆炸的技术，通过将梯度的范数限制在一个最大值内，可以稳定训练过程。
最大样本数（Max Samples） ：这是每个数据集的最大样本数。它限制了训练过程中使用的数据量，对于大规模数据集，可以通过设置这个参数来控制训练的计算成本和时间。

这些参数的合理设置对模型的训练效果和效率有着重要影响。

在AI大模型训练阶段，混合精度训练是一种通过使用不同精度的数据类型来加速训练过程的技术。计算类型的含义如下：

bf16（Brain Floating Point 16） ：这是一种16位浮点数格式，专为深度学习设计。它在保持较高精度的同时，提供了比32位浮点数更快的计算速度和更低的内存占用。
fp16（Floating Point 16） ：这是另一种16位浮点数格式，广泛用于图形处理和机器学习中。与fp32相比，fp16可以显著减少内存带宽需求和计算量，从而加快训练速度。
fp32（Floating Point 32） ：这是标准的32位浮点数格式，提供较高的数值精度，但计算速度和内存占用相对较高。
pure_bf16 ：这表示在整个训练过程中完全使用bf16进行计算，不进行任何精度转换。这种方式可以最大化bf16的优势，但在某些情况下可能会影响模型的收敛性和最终性能。

选择合适的计算类型可以根据硬件支持、模型复杂度和对精度的要求来决定，以达到最佳的训练效果和效率。

在AI大模型训练阶段，这些参数的具体解释如下：

截断长度（Sequence Length） ：这是输入序列分词后的最大长度。在处理文本数据时，每个输入样本会被分割成一系列的词或子词，这个参数决定了每个样本中允许的最大词数。较长的序列可以包含更多的上下文信息，但也会增加计算复杂度和内存需求。
批处理大小（Batch Size） ：这是每个GPU处理的样本数量。批处理大小决定了每次迭代中更新模型参数所使用的样本数量。较大的批处理大小可以提供更稳定的梯度估计，加速训练过程，但也需要更多的内存资源。
梯度累积（Gradient Accumulation Steps） ：这是梯度累积的步数。当可用的GPU内存不足以支持较大的批处理大小时，可以通过梯度累积来模拟大批次的效果。具体来说，它将一个大批次的数据分成多个小批次进行前向和反向传播，然后将梯度累加起来再进行一次权重更新。
验证集比例（Validation Set Ratio） ：这是验证集占全部样本的百分比。在训练过程中，通常会将数据集划分为训练集和验证集，其中验证集用于评估模型的泛化能力。通过调整这个比例，可以在训练和验证之间找到合适的平衡点。

合理设置这些参数对于优化训练过程、提高模型性能和减少计算资源消耗都非常重要。

在AI大模型训练阶段，学习率调节器（也称为学习率调度器）用于动态调整学习率，以优化训练过程和提高模型性能。以下是各学习率调节器的介绍及解释：

linear ：线性学习率调度器。它按照线性规律逐渐减少学习率，通常从一个较高的初始值开始，然后在训练过程中逐步降低到一个较小的最终值。
cosine ：余弦退火学习率调度器。它根据余弦函数的形状来调整学习率，从初始值开始，先快速下降，然后缓慢上升，再下降，形成一个平滑的周期性变化。这种调度器有助于模型在训练后期进行更精细的参数调整。
cosine_with_restarts ：带重启的余弦退火学习率调度器。它在余弦退火的基础上增加了周期性的重启机制，即在每个周期结束时将学习率重新设置为初始值，然后再进行下一个周期的余弦退火。这种方式可以防止模型陷入局部最优解，促进更好的收敛。
polynomial ：多项式学习率调度器。它根据多项式函数来调整学习率，通常从一个较高的初始值开始，然后按照多项式的规律逐渐减少到一个较小的最终值。这种调度器适用于需要在训练后期进行平滑收敛的情况。
constant ：常数学习率调度器。在整个训练过程中保持学习率不变，适用于对学习率有明确要求或希望进行简单调试的情况。
constant_with_warmup ：带有预热的常数学习率调度器。它在训练初期使用较低的学习率进行预热，然后在达到一定迭代次数后切换到常数学习率。这种方式有助于模型在训练初期更好地适应数据分布。
inverse_sqrt ：逆平方根学习率调度器。它根据逆平方根函数来调整学习率，通常从一个较高的初始值开始，然后按照逆平方根的规律逐渐减少。这种调度器适用于需要在训练初期进行较大更新、后期进行较小更新的情况。
reduce_lr_on_plateau ：基于平台期减少学习率的调度器。它在训练过程中监测模型的性能指标（如验证集上的损失），当指标在一段时间内没有显著改善时，自动减少学习率。这种方式有助于模型在遇到平台期时进行更有效的探索。
cosine_with_min_lr ：带有最小学习率的余弦退火学习率调度器。它在余弦退火的基础上增加了一个最小学习率限制，即使在余弦函数的低点，学习率也不会低于这个最小值。这种方式可以在保证模型收敛的同时，避免学习率过低导致的训练停滞。
warmup_stable_decay ：预热稳定衰减学习率调度器。它在训练初期使用较低的学习率进行预热，然后在达到一定迭代次数后逐渐增加到一个稳定的学习率，并在此基础上进行衰减。这种方式有助于模型在训练初期更好地适应数据分布，同时在后期进行更稳定的参数调整。