验证模型的batch size如何设置?
- 若输入模型数据shape固定,验证时对batch size无限制
- 若输入模型数据shape不固定,验证时将batch size设置成1
训练模型需要提前热身?(Warm-up)
主要为了解决初始学习率过大导致训练不稳定问题。
(先从0线性增长到设置的学习率,再逐渐减小)
刚开始训练时,模型的权重(weights)是随机初始化的,此时若选择一个较大的学习率,可能带来模型的不稳定(振荡),选择Warmup预热学习率的方式,可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳。
为什么保存的权重文件很大?
为了训练过程中保存更多有用信息,除了保存模型权重外还会保存优化器等信息
若使用时不再需要其他信息,可以载入模型后重新保存权重(仅模型权重)
Reference:
B站 霹雳吧啦Wz