为了理解这个概念,我阅读了由Mauricio Menegaz撰写的文章,并观看了Deeplearning.ai在YouTube上的视频,但在S x S x (B * 5 +C)部分我感到困惑。我知道S x S代表网格大小,5代表边界框的组成部分,C代表类别。B与锚框相同吗?如果我只想检测一个类别(例如车牌),这是否意味着只会有一个B?
边界框是在图像被输入到神经网络之前创建的吗?
回答:
B与锚框相同吗?
是的,B就是锚框的数量。
如果我只想检测一个类别(例如车牌),这是否意味着只会有一个B?
不,在这种情况下,C = 1。但是,如果你提前知道你需要检测的物体的宽高比,并且这个比率在不同视角下变化不大,你可能只需要一个与这个比率匹配的锚框,所以在你的车牌案例中,B也可以是1。
但是,如果你需要检测汽车,因为汽车的宽高比在不同视角下变化很大,你可能需要更多的锚框。