1. 训练过程中意外中断,未完成训练预期的epoch数量
不小心多开了一个程序,导致程序从98次中断了,想要继续从98开始训练:
将train_dual.py文件中的patser中参数resume,将其设置为default=True:
parser.add_argument('--resume', nargs='?', const=True, default=True, help='resume most recent training')
注意如果想从上一次训练结果中恢复训练,那么保证训练结果(存放在/runs/train目录下)在保存目录中代号为最大的,也就是断点的那次存放的结果是在最后一个文件夹的,断点前训练的设置参数、超参数和每轮训练效果在时间最迟的文件夹下的opt.yaml、hyp.yaml、results.csv中有记录
然后运行train_dual.py:
就可以用继续第98轮了
2.训练完了,但是未收敛,在这个基础上继续训练多一些轮次
不是直接在train_dual.py设置weight参数为训练好的权重(last.pt),然后设置想要继续训练的epoch,这样学习率等超参数启动时还是按照默认的,并不是继续上一轮的训练。
当然如果超参数设置和之前的一样,应该是没有问题的。
如果为了确保准确,修改方式如下:
修改方式:(按步骤进行)
1. 将train_dual.py文件中,epoch参数改成想要原始轮数+继续训练的轮数。比如训练了100轮,还想训练200轮,就改成100+200=300轮,也就是最终要训练300轮。resume设置为default=True
2. 对utils/torch_utils.py中的smart_resume()函数进行更改:
添加一行代码:ckpt[‘epoch’] =100 #原本训练完的epoch
修改代码:start_epoch = ckpt[‘epoch’](后面不加1)
注意:这里的修改是为了断点训练,如果不再需要断点训练,请将修改都还原。
也就是把:
# start_epoch = ckpt['epoch'] + 1
# 上面那行改成下面两行
ckpt['epoch'] =100 # 原本训练完的epoch
start_epoch = ckpt['epoch']
3. 在train_dual.py文件中,找到opt.cfg, opt.weights, opt.resume
将下面两行代码
opt = argparse.Namespace(**d) # replace
opt.cfg, opt.weights, opt.resume = '', str(last), True # reinstate
修改成:
init_epochs = opt.epochs # 记录最开始由epochs参数设定的数值,replace这行代码,将epochs替换成了原始的epochs数值
opt = argparse.Namespace(**d) # replace
# opt.cfg, opt.weights, opt.resume = '', str(last), True # reinstate
opt.cfg, opt.weights, opt.resume,opt.epochs = '', str(last), True, init_epochs # reinstate
恢复成设定的epochs,完成以上3步,可以进行继续训练了,python train_dual.py
注意:训练完成之后,不再需要断点训练,请将修改都还原