处理与输出预测无关的特征?

我使用多个特征进行回归分析。特征数量在20到23之间。目前,我检查每个特征与输出变量的相关性。一些特征显示出接近1或-1的相关系数(高度相关)。一些特征显示出接近0的相关系数。我的问题是:如果某个特征的相关系数接近0,我是否必须删除它?或者我可以保留它,只是这个特征对回归模型不会产生明显影响,或者对其影响微弱。还是说删除这种特征是必须的?


回答:

简而言之

  • 特征与输出之间的高(绝对)相关性意味着该特征作为预测器应该是有价值的
  • 特征与输出之间缺乏相关性意味着什么也没有

更多细节

成对相关性只能显示一件事如何影响另一件事,它完全没有说明这个特征与其他特征的联系有多好。因此,如果你的模型不是简单的,那么你不应该因为它们与输出不相关而删除变量。我将给你一个例子来说明为什么。

考虑以下样本,我们有2个特征(X, Y)和一个输出值(Z,假设红色是1,黑色是0)

enter image description here

X   Y   Z1   1   11   2   01   3   02   1   02   2   12   3   03   1   03   2   03   3   1

让我们计算相关性:

  • CORREL(X, Z) = 0
  • CORREL(Y, Z) = 0

那么…我们应该删除所有值吗?删除其中一个?如果我们删除任何变量 – 我们的问题将完全无法建模!“魔法”在于数据中实际上存在“隐藏”的关系。

|X-Y|012101210

并且

  • CORREL(|X-Y|, Z) = -0.8528028654

现在这是一个很好的预测器!

你实际上可以通过以下方式获得一个完美的回归器(插值器)

Z = 1 - sign(|X-Y|)

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注