自动驾驶汽车如何使用视觉检测系统处理作为输入的N种可能性

我知道卷积神经网络可以用来解决这个问题,但如果你看自动驾驶汽车的视频,比如特斯拉的自动驾驶系统,它们仍然使用视觉检测和标记系统作为神经网络的输入。我想知道自动驾驶汽车是如何解决检测对象可能有N种,并且每个输入对象的信息量各不相同的问题。因为神经网络结构非常僵化,我认为这会造成问题。任何解释都会非常有帮助;不过,如果你有科学论文,那就更好了!


回答:

这些网络不输出如汽车、人行道等类别标签,而是输出N个对象上的概率分布。最终的决策是在之后做出的,基本是将概率最高的对象作为预测。模型在大量图像上进行训练,正如你所说,这些图像包含不同数量的对象,但由于模型本身会为所有N个对象输出概率,无论输入中有多少对象,这正是模型被训练来做的。因此,它们学会了在图像中不存在的对象类型上输出接近0的概率。

由于这是它们被训练来做的事情,它们在推理过程中也能做到。当然,如果某些对象类型在数据中非常罕见,可能会出现一些问题,但这是类别不平衡的问题。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注