最近有人告诉我,回归数据的标签也应该进行标准化以获得更好的结果,但我对此持怀疑态度。我从未在回归和分类中尝试过标准化标签,因此我不知道这种说法是否正确。您能否就这个问题给我一个清晰的解释(可以是数学上的或基于经验的)?
非常感谢。任何帮助都将不胜感激。
回答:
当你说“标准化”标签时,你的意思并不清楚(即,你是指统计意义上的标准化还是其他什么)。你能提供一个例子吗?
关于数据分析中使标签统一如果你是为了在text()
函数中使用而整理标签,你可以尝试使用abbreviate()
函数来缩短它们,或者使用format()
函数来更好地对齐它们。
pretty()
函数在对绘图轴上的标签进行四舍五入时表现很好。例如,基础函数hist()
用于绘制直方图时,会调用Sturges或其他算法,然后使用pretty()
来选择合适的箱大小。
scale()
函数会通过减去均值并除以标准差来标准化值,在某些圈子里这被称为标准化。
关于回归中缩放的原因(回应@某人的评论)。假设你对协变量X1, X2, …进行Y的回归。缩放协变量Xk的原因取决于具体情况。它可以使每个协变量的系数(效应大小)进行比较。它可以帮助确保数值精度(如今除非协变量的尺度差异巨大和/或数据量很大,否则通常不是问题)。有关可读的介绍,请参见心理躯体医学编辑指南。有关数学密集型讨论,请参见Sylvain Sardy的指南。
特别是在贝叶斯回归中,建议进行重新缩放以确保MCMC估计的收敛;例如,参见这个讨论。