如何评估和解释这个机器学习模型的训练结果?

我是机器学习的新手。我做了一个测试,但不知道如何解释和评估。

情况1:

我首先将数据(数据A,大约8000个单词)随机分成10组(a1到a10)。在每组内,我使用90%的数据构建ngram模型。然后用这组内剩余的10%数据测试这个ngram模型。结果准确率低于10%。其他9组也以相同的方式进行(分别构建模型并在该组剩余的10%数据上测试)。所有结果的准确率大约为10%。(这是10折交叉验证吗?)

情况2:

我首先基于整个数据集(数据A,大约8000个单词)构建了一个ngram模型。然后我将这个A随机分成10组(a1,a2,a3到a10)。接着我用这个ngram模型分别测试a1,a2到a10。我发现模型在所有组上的准确率几乎达到96%。

如何解释这种情况?提前感谢。


回答:

  1. 是的,10折交叉验证。

  2. 这种测试方法存在一个常见的问题,即在训练集上进行测试。这就是为什么准确率被夸大了。这是不现实的,因为在现实生活中,你的测试实例是新的且系统之前未见过的。

N折交叉验证是一种在许多研究中使用的有效评估方法。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注