我知道卷积神经网络可以用来解决这个问题,但如果你看自动驾驶汽车的视频,比如特斯拉的自动驾驶系统,它们仍然使用视觉检测和标记系统作为神经网络的输入。我想知道自动驾驶汽车是如何解决检测对象可能有N种,并且每个输入对象的信息量各不相同的问题。因为神经网络结构非常僵化,我认为这会造成问题。任何解释都会非常有帮助;不过,如果你有科学论文,那就更好了!
回答:
这些网络不输出如汽车、人行道等类别标签,而是输出N个对象上的概率分布。最终的决策是在之后做出的,基本是将概率最高的对象作为预测。模型在大量图像上进行训练,正如你所说,这些图像包含不同数量的对象,但由于模型本身会为所有N个对象输出概率,无论输入中有多少对象,这正是模型被训练来做的。因此,它们学会了在图像中不存在的对象类型上输出接近0的概率。
由于这是它们被训练来做的事情,它们在推理过程中也能做到。当然,如果某些对象类型在数据中非常罕见,可能会出现一些问题,但这是类别不平衡的问题。