数据预处理:回归中的数据标签标准化?

最近有人告诉我,回归数据的标签也应该进行标准化以获得更好的结果,但我对此持怀疑态度。我从未在回归和分类中尝试过标准化标签,因此我不知道这种说法是否正确。您能否就这个问题给我一个清晰的解释(可以是数学上的或基于经验的)?

非常感谢。任何帮助都将不胜感激。


回答:

当你说“标准化”标签时,你的意思并不清楚(即,你是指统计意义上的标准化还是其他什么)。你能提供一个例子吗?

关于数据分析中使标签统一如果你是为了在text()函数中使用而整理标签,你可以尝试使用abbreviate()函数来缩短它们,或者使用format()函数来更好地对齐它们。

pretty()函数在对绘图轴上的标签进行四舍五入时表现很好。例如,基础函数hist()用于绘制直方图时,会调用Sturges或其他算法,然后使用pretty()来选择合适的箱大小。

scale()函数会通过减去均值并除以标准差来标准化值,在某些圈子里这被称为标准化。

关于回归中缩放的原因(回应@某人的评论)。假设你对协变量X1, X2, …进行Y的回归。缩放协变量Xk的原因取决于具体情况。它可以使每个协变量的系数(效应大小)进行比较。它可以帮助确保数值精度(如今除非协变量的尺度差异巨大和/或数据量很大,否则通常不是问题)。有关可读的介绍,请参见心理躯体医学编辑指南。有关数学密集型讨论,请参见Sylvain Sardy的指南

特别是在贝叶斯回归中,建议进行重新缩放以确保MCMC估计的收敛;例如,参见这个讨论

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注