我在Kaggle上浏览一个关于回归的内核时,提到数据应该呈现正态分布。但是我不明白为什么?我知道这个问题可能非常基础,但请帮助我理解这个概念。
提前感谢!!
回答:
回归模型做出了一些假设,其中之一就是正态性。当这一假设被违反时,你的p值和系数估计的置信区间可能会出错,导致关于你的预测变量的统计显著性的错误结论。
然而,一个常见的误解是数据(即变量/预测变量)需要呈正态分布,但这并非事实。这些模型对预测变量的分布没有任何假设。
例如,假设你在回归中有一个二元预测变量(男/女;慢/快等)——这种变量不可能呈正态分布,但它仍然是回归模型中有效的预测变量。正态性假设实际上是指残差的分布,而不是预测变量本身。