Transformer encoder-decoder模型之间共享的是Encoder最后一层输出的hidden-state。 GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
Bert2Bert中,Encoder的hidden-state同步到decoder模块。
SelfAttention中的交叉注意力会将这个hidden-state转换为Decoder的Key,Value。
参考:
Transformer编码器和解码器的输入与输出_transformer编码器输出表示-CSDN博客文章浏览阅读1.4k次,点赞8次,收藏10次。本文详细阐述了Transformer模型的工作原理,包括解码器如何接收编码器输出作为上下文信息,以及编码器-解码器注意力机制如何运作。重点讲解了训练过程中的参数优化,如自注意力机制、查询、键和值向量,以及解码器的输入输出过程。https://blog.csdn.net/xw555666/article/details/138187596