背景:我正在创建一个用于清理和转换时间序列数据的配方,这些数据将被多个模型使用。配方中的一个步骤是使用step_corr()
函数删除相关的预测变量。
然而,由于数据集的性质,在使用滚动窗口进行交叉验证时,某些变量可能在整个训练数据集中具有常数值,从而导致step_corr()
函数发出警告。
问题陈述:在这种情况下,是否可以从相关性步骤中排除这些变量?或者完全删除这些变量?
P.S. 我知道我可以轻松忽略警告并继续进行。但我正在寻找更清洁的方法/最佳实践建议。
回答:
您可以考虑以下两个步骤:
step_zv()
将删除所有值相同的变量(零方差)step_nzv()
将删除几乎所有值相同的变量(高度稀疏且不平衡)