现在学习下gpt2模型做摘要,我们都知道gpt2 是纯decoder,做摘要说话的效果较好。
把数据拆分
按照这个进行tokenizer
用这个tokenizer = BertTokenizer.from_pretrained(‘bert-base-chinese’)
2w多词汇表
用交叉熵做lossf,
设好一些简单的训练参数
开始了漂亮的训练
载入模型开始预测
还是可以基本做出摘要的。基本可以用,就是代码仍然感觉不是很简单。
shift_logits = outputs.logits[…, :-1, :] 是忽略最后一个词
shift_labels = labels[…, 1:] 目标数据集忽略第一个词,拿这2个来比较算loss,很不容易理解。