本文只是从全局角度出发梳理学习过程,现阶段不会针对每一步写文章,工作没什么时间,但是会梳理自己的学习过程和一些好的参考文章。后面有时间再系统梳理每个模型
总览
本人目前主要研究基于transfermer的视觉大模型,同时也会学习开集的检测模型,因为这两个方向是迈向通用视觉大模型的基础。
基于transformer的视觉检测模型
transformer模型
我的前几篇文章写了相关代码可以参考文章,原理可以参考这几篇文章transformer1,transformer2,transformer3
vit模型
这个模型必须掌握,网上资料很多,我就罗列了
deter模型
这位大神的一系列文章
deformable模型
这位大神的一系列文章,当然还有b站的视频配合理解即可
后续继续添加