假设我们有一些数据(输入),我们希望用这些数据来预测一些输出。如果某个特定输入可能的取值随时间变化,那么使用所有这些数据是否仍然合适呢?
让我通过一个例子来澄清一下。假设其中一个输入是一个分类变量,在数据中具有唯一值[A, B, C]
,但我们确切知道,在我们最终进行预测的当前环境中,只有[A, B]
是可能的值。
在这种情况下,使用所有数据是否仍然合适,或者应该排除所有包含C
的观测值?
回答:
如果C
并不唯一映射到目标变量,而是与A
或/和B
共享一些目标变量。在这种情况下,尽管知道C
在未来的输入中(即你为未见过的输入进行预测的地方)绝对不会出现,仍然将C
保留在数据集中,会调整模型的假设(这取决于模型,线性模型更容易受到这种影响),最终的假设将因此基于冗余信息。
简单来说:样本内不代表样本外,所以会过拟合且无法泛化!