为什么在进行交叉验证之前，基于预测变量与因变量之间的低相关性来删除预测变量是不正确的？

假设我有预测变量 X1, X2, …, Xn 和一个因变量 Y。

我检查了预测变量与 Y 之间的相关性，并删除了与 Y 相关性低的预测变量。现在我使用 Y 与剩余的预测变量之间的交叉验证来训练逻辑回归模型。

这种方法有什么问题？

回答：

这样做可能会有很多问题，回答起来会很冗长——我只指出我认为最重要的两个问题，你可以用这些“关键词”查找任何仍然不清楚的内容：

基于特征与目标变量的相关性来删除特征本质上是一种特征筛选。重要的是要理解，特征筛选并不一定能提高预测性能。例如，考虑两个特征与目标变量呈AND或OR配置的情况，只有这两个特征一起才能正确预测目标变量。这些特征与目标变量的相关性可能很低，但删除它们很可能会降低你的预测性能。除了特征筛选外，还有特征包装器，你可以使用特征的子集与模型一起评估模型的预测性能。因此，与仅查看特征和目标的特征筛选不同，特征包装器查看的是实际的模型性能。顺便说一下：如果你最终使用基于特征相关性的特征筛选，你可能不仅要丢弃与目标变量相关性低的特征，还要丢弃特征之间相关性高的特征（因为这样的特征根本不包含多少新信息）。
如果你想调整你的特征选择（例如，你希望在数据中保留的信息/方差量，你想保留的特征数量，你允许的相关性量等），而且你在交叉验证和重抽样方法之外这样做，你可能会得到过于乐观的最终模型的错误估计。这是因为没有将这些纳入CV过程，你最终会选择一个“最佳”配置，而这个配置并没有被正确（=独立地）估计，因此可能只是碰巧表现好。所以，如果你想正确估计错误，你应该考虑将你的特征选择也包括在CV过程中。

学技术