数据集的每个参数都需要符合正态分布吗?

抱歉,我刚开始学习机器学习,并不是这方面的专家。因此,我的问题可能会显得无知,但我无法避免这一点。我尽力搜索过了,但没能找到与我的问题相关的问题或答案。

我了解到,如果数据集不是正态分布的,模型就无法学习。此外,我用来判断数据集是否为正态分布的唯一方法是这里描述的图形方法,用于每个参数。这可能不是最佳方法,如果是这样,我愿意接受修正,请纠正我。

现在回到我的问题,如果我看到某些参数符合正态分布,而其他几个参数不符合,这是否意味着数据集有缺陷?还是说我应该在模型中不使用这些参数?

提前感谢,如果我的理解中有任何基本错误,请原谅我。


回答:

正如cel所说,每个模型都有其自身的假设和限制。虽然可能存在只能在完全正态分布的数据上学习的模型,但还有许多模型并不需要这样,例如支持向量机(SVM)或随机森林。

在实践中,如果你知道你的数据不符合模型的假设,你可以考虑使用不同的模型,或者对数据进行处理以符合假设。后一种选择需要谨慎考虑,以确保你的处理不会在现实场景中使模型失去效用。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注