假设我有预测变量 X1
, X2
, …, Xn
和一个因变量 Y
。
我检查了预测变量与 Y
之间的相关性,并删除了与 Y
相关性低的预测变量。现在我使用 Y
与剩余的预测变量之间的交叉验证来训练逻辑回归模型。
这种方法有什么问题?
回答:
这样做可能会有很多问题,回答起来会很冗长——我只指出我认为最重要的两个问题,你可以用这些“关键词”查找任何仍然不清楚的内容:
-
基于特征与目标变量的相关性来删除特征本质上是一种特征筛选。重要的是要理解,特征筛选并不一定能提高预测性能。例如,考虑两个特征与目标变量呈AND或OR配置的情况,只有这两个特征一起才能正确预测目标变量。这些特征与目标变量的相关性可能很低,但删除它们很可能会降低你的预测性能。除了特征筛选外,还有特征包装器,你可以使用特征的子集与模型一起评估模型的预测性能。因此,与仅查看特征和目标的特征筛选不同,特征包装器查看的是实际的模型性能。顺便说一下:如果你最终使用基于特征相关性的特征筛选,你可能不仅要丢弃与目标变量相关性低的特征,还要丢弃特征之间相关性高的特征(因为这样的特征根本不包含多少新信息)。
-
如果你想调整你的特征选择(例如,你希望在数据中保留的信息/方差量,你想保留的特征数量,你允许的相关性量等),而且你在交叉验证和重抽样方法之外这样做,你可能会得到过于乐观的最终模型的错误估计。这是因为没有将这些纳入CV过程,你最终会选择一个“最佳”配置,而这个配置并没有被正确(=独立地)估计,因此可能只是碰巧表现好。所以,如果你想正确估计错误,你应该考虑将你的特征选择也包括在CV过程中。