为什么在进行交叉验证之前,基于预测变量与因变量之间的低相关性来删除预测变量是不正确的?

假设我有预测变量 X1, X2, …, Xn 和一个因变量 Y

我检查了预测变量与 Y 之间的相关性,并删除了与 Y 相关性低的预测变量。现在我使用 Y 与剩余的预测变量之间的交叉验证来训练逻辑回归模型。

这种方法有什么问题?


回答:

这样做可能会有很多问题,回答起来会很冗长——我只指出我认为最重要的两个问题,你可以用这些“关键词”查找任何仍然不清楚的内容:

  1. 基于特征与目标变量的相关性来删除特征本质上是一种特征筛选。重要的是要理解,特征筛选并不一定能提高预测性能。例如,考虑两个特征与目标变量呈AND或OR配置的情况,只有这两个特征一起才能正确预测目标变量。这些特征与目标变量的相关性可能很低,但删除它们很可能会降低你的预测性能。除了特征筛选外,还有特征包装器,你可以使用特征的子集与模型一起评估模型的预测性能。因此,与仅查看特征和目标的特征筛选不同,特征包装器查看的是实际的模型性能。顺便说一下:如果你最终使用基于特征相关性的特征筛选,你可能不仅要丢弃与目标变量相关性低的特征,还要丢弃特征之间相关性高的特征(因为这样的特征根本不包含多少新信息)。

  2. 如果你想调整你的特征选择(例如,你希望在数据中保留的信息/方差量,你想保留的特征数量,你允许的相关性量等),而且你在交叉验证和重抽样方法之外这样做,你可能会得到过于乐观的最终模型的错误估计。这是因为没有将这些纳入CV过程,你最终会选择一个“最佳”配置,而这个配置并没有被正确(=独立地)估计,因此可能只是碰巧表现好。所以,如果你想正确估计错误,你应该考虑将你的特征选择也包括在CV过程中。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注