为什么在进行交叉验证之前,基于预测变量与因变量之间的低相关性来删除预测变量是不正确的?

假设我有预测变量 X1, X2, …, Xn 和一个因变量 Y

我检查了预测变量与 Y 之间的相关性,并删除了与 Y 相关性低的预测变量。现在我使用 Y 与剩余的预测变量之间的交叉验证来训练逻辑回归模型。

这种方法有什么问题?


回答:

这样做可能会有很多问题,回答起来会很冗长——我只指出我认为最重要的两个问题,你可以用这些“关键词”查找任何仍然不清楚的内容:

  1. 基于特征与目标变量的相关性来删除特征本质上是一种特征筛选。重要的是要理解,特征筛选并不一定能提高预测性能。例如,考虑两个特征与目标变量呈AND或OR配置的情况,只有这两个特征一起才能正确预测目标变量。这些特征与目标变量的相关性可能很低,但删除它们很可能会降低你的预测性能。除了特征筛选外,还有特征包装器,你可以使用特征的子集与模型一起评估模型的预测性能。因此,与仅查看特征和目标的特征筛选不同,特征包装器查看的是实际的模型性能。顺便说一下:如果你最终使用基于特征相关性的特征筛选,你可能不仅要丢弃与目标变量相关性低的特征,还要丢弃特征之间相关性高的特征(因为这样的特征根本不包含多少新信息)。

  2. 如果你想调整你的特征选择(例如,你希望在数据中保留的信息/方差量,你想保留的特征数量,你允许的相关性量等),而且你在交叉验证和重抽样方法之外这样做,你可能会得到过于乐观的最终模型的错误估计。这是因为没有将这些纳入CV过程,你最终会选择一个“最佳”配置,而这个配置并没有被正确(=独立地)估计,因此可能只是碰巧表现好。所以,如果你想正确估计错误,你应该考虑将你的特征选择也包括在CV过程中。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注