如何为噪声（分散）数据选择回归算法？

我打算对多个变量进行回归分析。我的数据中有 n = 23 个特征和 m = 13000 个训练样本。以下是我的训练数据（房屋面积对价格）的图表：

图表上有13000个训练样本。正如你所见，数据相对较为噪声。我的问题是，在我的情况下使用哪种回归算法更为合适和合理。我的意思是，使用简单线性回归还是某些非线性回归算法更为合理？

为了更清楚，我提供了一些例子。
这是一个不相关的线性回归拟合示例：

这是一个不相关的非线性回归拟合示例：

现在我为我的数据提供了一些假设的回归线：据我所知，对于我的数据使用原始的线性回归会产生非常高的误差成本，因为数据非常噪声且分散。另一方面，也没有明显的非线性模式（例如正弦波）。在我的情况下（房价数据），为了获得或多或少合适的房价预测，应该使用哪种回归算法（线性或非线性）更合理？为什么这种算法更合理？

回答：

使用非线性算法将减少训练集上的误差，因为你将使用更适合你数据的曲线。然而，这可能会导致过拟合。

为了避免这种情况，一个好的做法是同时绘制训练数据和测试数据上的误差（成本函数）。增加模型的复杂性会降低训练数据上的误差，但在某一点上会使测试数据上的误差更高。

test

学技术

如何为噪声（分散）数据选择回归算法？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复