数据预处理：回归中的数据标签标准化？

最近有人告诉我，回归数据的标签也应该进行标准化以获得更好的结果，但我对此持怀疑态度。我从未在回归和分类中尝试过标准化标签，因此我不知道这种说法是否正确。您能否就这个问题给我一个清晰的解释（可以是数学上的或基于经验的）？

非常感谢。任何帮助都将不胜感激。

回答：

当你说“标准化”标签时，你的意思并不清楚（即，你是指统计意义上的标准化还是其他什么）。你能提供一个例子吗？

关于数据分析中使标签统一如果你是为了在text()函数中使用而整理标签，你可以尝试使用abbreviate()函数来缩短它们，或者使用format()函数来更好地对齐它们。

pretty()函数在对绘图轴上的标签进行四舍五入时表现很好。例如，基础函数hist()用于绘制直方图时，会调用Sturges或其他算法，然后使用pretty()来选择合适的箱大小。

scale()函数会通过减去均值并除以标准差来标准化值，在某些圈子里这被称为标准化。

关于回归中缩放的原因（回应@某人的评论）。假设你对协变量X1, X2, …进行Y的回归。缩放协变量Xk的原因取决于具体情况。它可以使每个协变量的系数（效应大小）进行比较。它可以帮助确保数值精度（如今除非协变量的尺度差异巨大和/或数据量很大，否则通常不是问题）。有关可读的介绍，请参见心理躯体医学编辑指南。有关数学密集型讨论，请参见Sylvain Sardy的指南。

特别是在贝叶斯回归中，建议进行重新缩放以确保MCMC估计的收敛；例如，参见这个讨论。

学技术

数据预处理：回归中的数据标签标准化？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复