paddleocr识别出来的rigion是无序的,我用augument-xy-cut对bbox排序之后。
下一步就是对自然段进行划分,即res字段里面的text_region进行merge_para,不过这时我产生了一个疑问,既然有merge_para了,前面对bbox的排序有必要吗?
为什么不直接用merge_para呢?
可能是效果不好?
我明白了,对于
这样版型的图,确实是可以直接用merge_para进行排序,可是这种排序是比较简单的,如果版型是双栏的,那就必须用agument-xy-cut进行region的排序,在对每一个region进行内部的merge_para。多思考还是有好处的,不要一上来就问别人,当然实在不知道就必须问了,此中的度,需要自己把握。