我试图理解决策树(回归)背后的数学原理。我找到了两篇文章,它们对回归树中如何进行分割的解释不同。有人能指出哪个是正确的,或者两者是否相似只是方法不同吗?
谢谢,
回答:
两者都是正确的。方法1使用标准差来分割节点,方法2使用方差。因为目标值是连续的,所以使用了标准差和方差。
方差是回归树最常用的分割标准之一。
方差
方差是各数据点与均值的平方差的平均值。要计算方差,首先计算每个点与均值的差,然后平方并平均这些结果。
标准差
标准差是一个统计量,用于衡量一组数字与其均值的偏离程度,通过使用方差的平方根来计算。方差的计算使用平方是因为它对离群值的加权重于接近均值的数据。这种计算方法还可以防止高于均值的差异与低于均值的差异相互抵消,有时会导致方差为零的情况。