YOLO神经网络结构如下图所示。把一幅480x480的原图分割成7x7=49个网格,每个网格要预测两个预选框(bounding box)的坐标(x,y,w,h),其中x和y表示box中心点与该格子边界的相对值,w和h表示预测框的宽度和高度相对于整幅图像的宽度和高度的比例。
同时,每个网格还会预测框内是否包含物体的置信度(confidence),每个预选框都有一个置信度,以及物体属于每一类类别的概率(YOLO的训练数据为VOC2012,是一个20分类的数据集),也就意味着每个网格预测20个类别的概率。所以我们可以得出,4*2(预选框)+2(置信度)+20(类别概率)=30,也即是一个网格有30个值,对应一个30维的向量。