Home IT技术使用当前无效的输入数据进行预测

使用当前无效的输入数据进行预测

IT技术 xiaolong · 2025年4月5日 · 0 Comment

假设我们有一些数据（输入），我们希望用这些数据来预测一些输出。如果某个特定输入可能的取值随时间变化，那么使用所有这些数据是否仍然合适呢？

让我通过一个例子来澄清一下。假设其中一个输入是一个分类变量，在数据中具有唯一值[A, B, C]，但我们确切知道，在我们最终进行预测的当前环境中，只有[A, B]是可能的值。

在这种情况下，使用所有数据是否仍然合适，或者应该排除所有包含C的观测值？

回答：

如果C并不唯一映射到目标变量，而是与A或/和B共享一些目标变量。在这种情况下，尽管知道C在未来的输入中（即你为未见过的输入进行预测的地方）绝对不会出现，仍然将C保留在数据集中，会调整模型的假设（这取决于模型，线性模型更容易受到这种影响），最终的假设将因此基于冗余信息。

简单来说：样本内不代表样本外，所以会过拟合且无法泛化！

artificial-intelligence forecasting machine-learning prediction statistics

发表回复取消回复