对于多类别逻辑回归分类器,我应该绘制多少条学习曲线?

如果我们有K个类别,我是否需要绘制K条学习曲线?因为对我来说,同时计算所有K个theta向量的训练/验证误差似乎是不可能的。

为了澄清,学习曲线是训练集和交叉验证/测试集误差/成本与训练集大小的对比图。这个图表应该能让你看到增加训练集大小是否能改善性能。更一般地说,学习曲线可以帮助你识别你的算法是否存在偏差(欠拟合)或方差(过拟合)问题。


回答:

这取决于情况。学习曲线与类别的数量无关。正如你所说,它是训练集和测试集误差的对比图,其中误差是一个数值。这就是学习曲线的全部内容。

这个误差可以是你想要的任何东西:准确率、精确率、召回率、F1分数等(甚至对于回归问题也可以使用MAE、MSE等)。

然而,你选择使用的误差是适用于还是不适用于你的具体问题,这反过来间接影响你应该如何使用学习曲线。

准确率对于任何数量的类别都有明确的定义,所以如果你使用这个,单一的图表应该就足够了。

然而,精确率和召回率仅适用于二元问题。你可以通过将每个类别x视为与非x的二元问题来某种程度上泛化它们(例如,参见这里)。在这种情况下,你可能会想要为每个类别绘制学习曲线。这也将帮助你更好地识别与某些类别相关的问题。

如果你想阅读更多关于性能指标的内容,我非常喜欢这篇论文

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注