如何为噪声(分散)数据选择回归算法?

我打算对多个变量进行回归分析。我的数据中有 n = 23 个特征和 m = 13000 个训练样本。以下是我的训练数据(房屋面积对价格)的图表:

enter image description here

图表上有13000个训练样本。正如你所见,数据相对较为噪声。我的问题是,在我的情况下使用哪种回归算法更为合适和合理。我的意思是,使用简单线性回归还是某些非线性回归算法更为合理?

为了更清楚,我提供了一些例子。
这是一个不相关的线性回归拟合示例:

enter image description here

这是一个不相关的非线性回归拟合示例:enter image description here

现在我为我的数据提供了一些假设的回归线:enter image description here据我所知,对于我的数据使用原始的线性回归会产生非常高的误差成本,因为数据非常噪声且分散。另一方面,也没有明显的非线性模式(例如正弦波)。在我的情况下(房价数据),为了获得或多或少合适的房价预测,应该使用哪种回归算法(线性或非线性)更合理?为什么这种算法更合理?


回答:

使用非线性算法将减少训练集上的误差,因为你将使用更适合你数据的曲线。然而,这可能会导致过拟合

为了避免这种情况,一个好的做法是同时绘制训练数据和测试数据上的误差(成本函数)。增加模型的复杂性会降低训练数据上的误差,但在某一点上会使测试数据上的误差更高。

test

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注