抱歉,我刚开始学习机器学习,并不是这方面的专家。因此,我的问题可能会显得无知,但我无法避免这一点。我尽力搜索过了,但没能找到与我的问题相关的问题或答案。
我了解到,如果数据集不是正态分布的,模型就无法学习。此外,我用来判断数据集是否为正态分布的唯一方法是这里描述的图形方法,用于每个参数。这可能不是最佳方法,如果是这样,我愿意接受修正,请纠正我。
现在回到我的问题,如果我看到某些参数符合正态分布,而其他几个参数不符合,这是否意味着数据集有缺陷?还是说我应该在模型中不使用这些参数?
提前感谢,如果我的理解中有任何基本错误,请原谅我。
回答:
正如cel所说,每个模型都有其自身的假设和限制。虽然可能存在只能在完全正态分布的数据上学习的模型,但还有许多模型并不需要这样,例如支持向量机(SVM)或随机森林。
在实践中,如果你知道你的数据不符合模型的假设,你可以考虑使用不同的模型,或者对数据进行处理以符合假设。后一种选择需要谨慎考虑,以确保你的处理不会在现实场景中使模型失去效用。