我有一个现有的模型,用于预测房价,该模型使用简单线性回归。输入是日期,输出是价格。
为了改进整体结果,我添加了一个新特征。这个新特征是与估计物业的距离。
问题是,多元/多重回归的表现比简单回归稍差。(所有数据都已标准化)
你有关于为什么会发生这种情况以及我该如何处理的想法吗?
回答:
可能的原因有数十种,这里列出几个:
- 如果你的新特征与你试图预测的内容几乎没有相关性——你实际上是在向系统中注入噪声,因此不能期望有更好的表现
- 如果你的数据点很少,增加特征可能会导致问题变得更加困难
- 由于你使用的是线性模型,即使新特征是非常好的预测器,但如果它与因变量的关系不是线性的——模型也会失败
- 线性回归本身是一个非常简单的模型,即使是岭回归/套索回归也可能会完全改变结果(特别是套索回归,因为它能更好地处理不良特征)