如何为噪声(分散)数据选择回归算法?

我打算对多个变量进行回归分析。我的数据中有 n = 23 个特征和 m = 13000 个训练样本。以下是我的训练数据(房屋面积对价格)的图表:

enter image description here

图表上有13000个训练样本。正如你所见,数据相对较为噪声。我的问题是,在我的情况下使用哪种回归算法更为合适和合理。我的意思是,使用简单线性回归还是某些非线性回归算法更为合理?

为了更清楚,我提供了一些例子。
这是一个不相关的线性回归拟合示例:

enter image description here

这是一个不相关的非线性回归拟合示例:enter image description here

现在我为我的数据提供了一些假设的回归线:enter image description here据我所知,对于我的数据使用原始的线性回归会产生非常高的误差成本,因为数据非常噪声且分散。另一方面,也没有明显的非线性模式(例如正弦波)。在我的情况下(房价数据),为了获得或多或少合适的房价预测,应该使用哪种回归算法(线性或非线性)更合理?为什么这种算法更合理?


回答:

使用非线性算法将减少训练集上的误差,因为你将使用更适合你数据的曲线。然而,这可能会导致过拟合

为了避免这种情况,一个好的做法是同时绘制训练数据和测试数据上的误差(成本函数)。增加模型的复杂性会降低训练数据上的误差,但在某一点上会使测试数据上的误差更高。

test

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注