我训练了两个机器学习模型。它们的准确率略有不同。
Model-A Accuracy = 0.78 or 78%Model-B Accuracy = 0.80 or 80%
从上述结果中,我能否推断Model-B
比Model-A
好2%
?
回答:
答案取决于你如何评估模型,以及目标分布的情况。
评估指标
如果类别的分布不平衡,准确率可能无法有效描述泛化误差。可以使用ROC AUC或F1分数。
评估过程
交叉验证比保留验证方法能提供更稳健的评估指标估计。对于不平衡数据集,分层交叉验证效果更好。
如果你对你的验证方法有信心,那么是的,你可以按照你描述的方式解释结果:Model-B
比Model-A
好2%
。
毕竟,这仍然只是一个估计。你可以使用自助法来估计置信区间,选择阈值,并推断差异是否具有统计显著性。