什么是机器学习中的过拟合和噪声？

谁能解释一下机器学习中的过拟合和噪声是什么？这在参数分类器中会发生吗？如何知道模型是否对数据过拟合？

回答：

过拟合是一种情况，其中具有预测能力的模型对训练数据的拟合过度。当引入新的测试数据时，这样的模型会产生非常模糊的结果。这里，训练误差会非常低，因为模型已经非常适应地调整和适应了训练数据。这种情况成为低偏差现象。同样，当引入测试数据时，由于上述条件，测试数据中的误差指标会非常高。这样的模型被称为高方差模型。

相反，欠拟合是一种情况，其中模型在训练数据本身的拟合非常差，因此被称为高偏差。这样的模型在测试数据上也不能期望有好的准确性。由于在拟合测试数据时误差很大，这样的模型也可以被称为高方差模型。

通常，我们期望一个好的模型始终是低偏差/低方差的模型。

减少过拟合的方法有很多，但许多方法是特定于模型的特征的，例如-

· 弹性网方法（回归）

· Lasso方法（回归）

· Ridge方法（回归）

· RELU激活函数（神经网络）

· 减少隐藏层数量（神经网络）

· 修剪（决策树回归和分类）等。

减少欠拟合没有定义的方法，但理论上，如果你非常仔细地进行特征选择，那么欠拟合可以被消除，因为模型总是会试图过拟合而不是欠拟合。

如果数据过于模糊，并且没有进行适当的EDA，也会导致欠拟合。因此，建议在任何机器学习过程之前进行适当的EDA。

是的，它也可能发生在参数分类器中。

你可以通过一些评估指标来检测过拟合-

如果是回归，那么像R平方、调整后的R平方、RMSE、MAE等指标会过高。
如果是分类，那么像准确率、精确度等指标会过高。

学技术

什么是机器学习中的过拟合和噪声？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复