它们都是成本函数吗?也就是说,在评估误差时你会同时考虑这两个吗,还是它们实际上是不同的衡量标准?我对logloss误差感到困惑,并且很难找到关于它的信息。
回答:
假设你已经在一些训练数据xtr, ytr上训练了一个分类器,并得到了一个拟合的分类器m。现在对于一些x, y,你获取分类器的结果ŷ = ŷm(x)。
-
对数损失是一个函数,它接受y和ŷ,并输出分类器在数据上的表现如何。
-
OOB(袋外)简单来说就是你不使用用于训练的数据集xtr, ytr作为x, y,即用于评估性能的数据集。相反,它意味着x, y是xte, yte,一些你从训练中留出的数据集(可能是专门为此目的留出的)。
这两个概念是正交的,因此:
-
对于一个拟合的分类器和一个OOB数据集,你可以使用对数损失,也可以不使用。
-
你可以在OOB数据集上测量对数损失,也可以在原始训练数据集上测量(不过,在后一种情况下,你应该非常小心如何解释结果 – 这是一个非常糟糕的估计器,用于评估预测器的实际表现)。