我对一些特征应用了线性回归,以10折交叉验证来预测目标。
特征和目标都进行了MinMax缩放。
然后对特征进行了标准化。
当我运行模型时,R²值等于0.65,均方误差(MSE)为0.02。
但当我不对目标进行MinMax缩放,直接使用原始数据时,R²值保持不变,但MSE大幅增加到18。
我的问题是,我们是否需要像处理特征一样对目标进行数据预处理?上述哪个值是正确的?因为不缩放目标后,MSE变得相当大。
有些人说也必须缩放目标,而其他人说不需要。
提前感谢您。
回答:
是否对目标进行缩放会改变错误的“含义”。例如,考虑两个不同的目标,一个范围是[0, 100],另一个是[0, 10000]。如果你对它们运行模型(不进行缩放),20的MSE对两个模型来说意味着不同的东西。在前一种情况下,这将是灾难性的,而在后一种情况下,这将是相当不错的。
因此,你在目标范围为[0, 1]时得到的MSE比原始范围低,这并不令人惊讶。
与此同时,R²值与范围无关,因为它是使用方差计算的。
缩放允许你比较不同目标的模型性能,此外还有其他好处。
对于某些模型类型(如神经网络),缩放更为重要。
希望这对你有帮助!