机器学习中训练、测试（开发）和验证分数的解释

我使用Sklearn训练了一个机器学习模型，并查看了几种不同分数，包括训练集、测试集（开发集）和验证集的分数。

以下是分数：

Accuracy on Train: 94.5468% Accuracy on Test: 74.4646% Accuracy on Validation: 65.6548% Precision on Train: 96.7002% Precision on Test: 85.2289% Precision on Validation: 79.7178% F1-Score on Train: 96.9761% F1-Score on Test: 85.6203% F1-Score on Validation: 79.6747%

我对这些分数的解释有些困惑。模型在验证集上的结果明显差一些，这是正常的吗？

你对这些结果有什么看法吗？

回答：

正如你在评论中所解释的，你的测试集是用来调整参数的集合，而验证集是模型在训练过程中未使用过的集合。
考虑到这一点，验证集的分数低于其他分数是自然的。
在训练机器学习模型时，你向模型展示训练集，这就是为什么模型在训练集上获得最佳分数，即它已经见过并知道答案的样本。
你使用验证集来调整参数（例如回归中的复杂度等），因此你的参数是为验证集进行微调的，但模型并未在这些数据上进行训练。（你使用了测试集这个术语，坦白说，它们有时是这样使用的）
最后，你在测试集上获得最低分数，这是自然的，因为参数并非专门为测试集调整，且模型之前从未见过这些数据。
如果你的训练和测试结果之间存在巨大差距，你的模型可能已经过拟合了，有方法可以避免这种情况。

希望这对你有帮助；）

学技术

机器学习中训练、测试（开发）和验证分数的解释

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复