我打算对多个变量进行回归分析。我的数据中有 n = 23 个特征和 m = 13000 个训练样本。以下是我的训练数据(房屋面积对价格)的图表:
图表上有13000个训练样本。正如你所见,数据相对较为噪声。我的问题是,在我的情况下使用哪种回归算法更为合适和合理。我的意思是,使用简单线性回归还是某些非线性回归算法更为合理?
为了更清楚,我提供了一些例子。
这是一个不相关的线性回归拟合示例:
现在我为我的数据提供了一些假设的回归线:据我所知,对于我的数据使用原始的线性回归会产生非常高的误差成本,因为数据非常噪声且分散。另一方面,也没有明显的非线性模式(例如正弦波)。在我的情况下(房价数据),为了获得或多或少合适的房价预测,应该使用哪种回归算法(线性或非线性)更合理?为什么这种算法更合理?
回答:
使用非线性算法将减少训练集上的误差,因为你将使用更适合你数据的曲线。然而,这可能会导致过拟合。
为了避免这种情况,一个好的做法是同时绘制训练数据和测试数据上的误差(成本函数)。增加模型的复杂性会降低训练数据上的误差,但在某一点上会使测试数据上的误差更高。