学习时间:2023.5.5-2023.5.12
学习内容:
1、answer
question:
img:
看到有论文说应该让图像和文本的潜在嵌入具有相似和合理的数值范围【-2,2】
调试发现模型的文本图像的潜在嵌入虽然符合,但相差较大。
在将文本和图像进行联合表示之前
尝试对文本(问题,答案)进行正则化
通过添加归一化层后:
answer:
question:
但是训练loss会为NAN
尝试将U-Vit中的层前归一化改为层后归一化并不能解决问题。