决策树剪枝的效果

我想知道,如果我使用训练集和验证集构建一个像ID3这样的决策树A,但A没有进行剪枝。同时,我还有另一个决策树B,也是使用ID3从相同的训练集和验证集中生成,但B进行了剪枝。现在,我在一个未来的未标记测试集上测试A和B,是否总是剪枝后的树性能更好?欢迎任何想法,谢谢。


回答:

我认为我们需要更清楚地进行区分:剪枝后的树在验证集上总是表现更好,但在测试集上不一定如此(事实上,它在训练集上的表现也一样或更差)。我假设剪枝是在树构建之后完成的(即:后剪枝)。

记住,使用验证集的全部原因是为了避免在训练数据集上过拟合,而这里的关键点是泛化:我们希望一个模型(决策树)能够泛化到“训练时”提供的实例之外,推广到新的、未见过的例子。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注