文章大纲
- 计算机视觉项目的关键步骤
- 目标检测入门
- 视频分析项目最佳实践
- 数据集构建
-
- 数据准备:数据集标注规范与数据规模参考
- 标注工具
-
- 标注工具:目标检测yolo 极简标注工具
- 综合标注工具:label-studio
- 半自动标注工具:X-AnyLabeling
- 目标检测与多模态
-
- 哪些多模态模型可以做目标检测?
- 基于AgentLego实战案例
- 参考文献
-
- 本人博客
- 文献综述
计算机视觉项目的关键步骤
参考:
- https://docs.ultralytics.com/guides/steps-of-a-cv-project/#introduction
https://docs.ultralytics.com/guides/defining-project-goals/
目标检测入门
目标检测分为One Stage和Two Stage ,是如何进行区分(最本质的区别是是否有候选框生成),以及各自的优势是什么(OneStage 速度快,Two Stage精度高)
OneStage简言之就是通过回归直接进行预测,Two Stage则会先进行一个兴趣区域提取,精度与速度通常是成反比,How to balance
Q query K key V value , Transformer最主要的是自注意力机制,自注意力机制则是学习Query和所有Val的匹配关系
自注意力机制和注意力机制的区别就在于,注意力机制的查询和键是不同来源的,例如,在Encoder-Decoder模型中,键是Encoder中的元素,而查询是Decoder中的元素。在中译英模型中,查询是中文单词特征,而键则是英文单词特征。而自注意力机制的查询和键则都是来自于同一组的元素,例如,在Encoder-Decoder模型中,查询和键都是Encoder中的元素,即查询和键都是中文特征ÿ