我创建了一个预测输出为1或0的网络。现在我正在研究这个网络的ROC曲线,需要找出TN、FN、TP、FP。当网络输出大于等于0.5且期望输出为1时,我将其归类为真阳性(True Positive)。当输出大于等于0.5且期望输出为0时,我将其归类为假阳性(False Positive)。这样做对吗?我只是想确认一下我的理解是否正确。
回答:
这完全取决于你如何使用你的网络,因为真/假阳性/阴性只是分析你分类结果的一种形式,而不是网络的内部机制。从你写的内容来看,我假设你有一个输出节点的网络,该节点可以产生[0,1]
范围内的值。如果你使用模型的方式是,当这个值大于0.5时,你假设输出为1
,否则为0
,那么是的,你的理解是正确的。一般来说,你应该考虑输出的“解释”,并简单地使用TP、FN等的定义,可以总结如下:
你的网络真实值 1 0 1 TP FN 0 FP TN
我提到“解释”,实际上你总是使用某个函数g( output )
,它返回预测的类别编号。在你的情况下,它只是g( output ) = 1 iff output >= 0.5
。但在多类别问题中,可能会是g( output ) = argmax( output )
,但不一定如此,特别是当两个或多个神经元的值相同时,如何处理“平局”?在计算真/假阳性/阴性时,你应该始终只考虑最终分类。结果,你是在衡量模型的质量、学习过程以及这个“解释”g
的质量。
还应该注意的是,“阳性”和“阴性”类的概念往往是模糊的。在像检测某个对象/事件这样的问题中,很明显,“发生”是阳性事件,“没有”是阴性事件,但在许多其他情况下——例如性别分类,就没有明确的解释。在这种情况下,应该谨慎选择使用的指标,因为有些指标对阳性(或阴性)样本有偏见(例如,精确度不考虑真阴性和假阴性)。