Home IT技术堆叠，堆叠泛化算法

堆叠，堆叠泛化算法

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我正在试图理解堆叠的工作原理，但到目前为止，我还不确定自己是否正确理解了它。所以这是我目前的理解：

我们用完整的数据集训练每个k个基础学习器（0级）。
我们让每个k个基础学习器预测整个数据集。
我们从所有k个基础学习器的预测中创建一个新的数据集。新的数据集看起来像是我们的原始数据集 + 每个基础学习器的预测。
这个数据集用于训练元学习器（1级）。

我的问题：

到目前为止，这是正确的吗？
我经常读到交叉验证在堆叠中被使用，但我不明白它是如何使用的？或者这是一个我错过的重要部分吗？

非常感谢

回答：

你的理解大体上是正确的！关于

新的数据集看起来像是我们的原始数据集 + 每个基础学习器的预测。

人们确实可以使用原始特征 + 每个基础学习器的预测，但当人们谈论堆叠时，他们通常只使用每个基础学习器的预测。

我经常读到交叉验证在堆叠中被使用，但我无法理解它是如何使用的？或者这是一个我错过的重要部分吗？

是的，交叉验证经常与堆叠一起使用。情况是，当你按照你描述的方式进行操作时，元模型（你称之为1级）可能会因为基础模型的预测而过拟合，因为每个预测都是在看到整个数据集后做出的。

所以你要做的是进行交叉验证，并将数据分成k折。你使用第k折的预测（循环通过所有k折）来获得一个（希望是）无偏的估计，关于模型在未见数据上的预测。然后你将元模型拟合到这些预测上（那里没有进行交叉验证）。

ensemble-learning machine-learning stacked

发表回复取消回复