数据预处理:回归中的数据标签标准化?

最近有人告诉我,回归数据的标签也应该进行标准化以获得更好的结果,但我对此持怀疑态度。我从未在回归和分类中尝试过标准化标签,因此我不知道这种说法是否正确。您能否就这个问题给我一个清晰的解释(可以是数学上的或基于经验的)?

非常感谢。任何帮助都将不胜感激。


回答:

当你说“标准化”标签时,你的意思并不清楚(即,你是指统计意义上的标准化还是其他什么)。你能提供一个例子吗?

关于数据分析中使标签统一如果你是为了在text()函数中使用而整理标签,你可以尝试使用abbreviate()函数来缩短它们,或者使用format()函数来更好地对齐它们。

pretty()函数在对绘图轴上的标签进行四舍五入时表现很好。例如,基础函数hist()用于绘制直方图时,会调用Sturges或其他算法,然后使用pretty()来选择合适的箱大小。

scale()函数会通过减去均值并除以标准差来标准化值,在某些圈子里这被称为标准化。

关于回归中缩放的原因(回应@某人的评论)。假设你对协变量X1, X2, …进行Y的回归。缩放协变量Xk的原因取决于具体情况。它可以使每个协变量的系数(效应大小)进行比较。它可以帮助确保数值精度(如今除非协变量的尺度差异巨大和/或数据量很大,否则通常不是问题)。有关可读的介绍,请参见心理躯体医学编辑指南。有关数学密集型讨论,请参见Sylvain Sardy的指南

特别是在贝叶斯回归中,建议进行重新缩放以确保MCMC估计的收敛;例如,参见这个讨论

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注