写在前面:我目前的研究方向是水下和遥感图像字幕生成。之前,我一直从事深度神经网络模型压缩和加速的研究,包括但不限于轻量化网络设计、模型修剪、知识蒸馏和网络量化等。通过开通本专栏,我希望通过这种形式来提升自己对文章质量的责任心,写出高质量的博文,同时也可以加深自己对图像字幕生成领域的理解和认知。
本专题主要聚焦于工程代码的讲解,主要基于 self-critical.pytorch 的代码基础。该代码库将经典的图像字幕生成论文以及基于 Transformer 的相关论文集成在一起,适合进阶学习者使用,能够提升他们的代码水平和技能。通过本专题,读者可以更深入地了解图像字幕生成领域的实践应用,并运用所学知识进行高质量的代码实现。
深入解析图像字幕生成数据集———Coco dataset
- 1. `dataset_coco.json` for image captioning
-
- 1.1 总结
- 1.2 将dataset_coco.json转换为cocotalk.json和cocotalk_label.h5
- 2. 对cocotalk.json介绍分析
- 3. cocotalk_label.h5介绍分析