何时应用数据白化

数据白化（特征缩放和均值归一化）在我们使用代表不同特征且数值范围差异很大的特征时非常有用（例如，房子的房间数量和房价）。

如果特征代表“相似变量”但数值范围差异很大，该怎么办？假设我们有一个矩阵，代表环境中不同时刻不同物种的数量，我们希望将这些物种重新分组（例如，证明蚊子和鸟类种群高度相关）。在这个例子中，蚊子的数量远大于鸟类（可能是十倍或百倍）。在这种情况下，是否应该对数据进行白化处理？

回答：

我认为当每个特征的数值范围不同时，应该应用数据缩放。你描述的数据也应该应用这种方法。

根据我在使用SVM（liblinear）的经验，通过数据缩放可以将训练模型的准确性提高10%。

通常我们会对SVM模型应用正则化，以确保权重不会变得过大。然而，如果数据未经缩放，特征1的数值是特征2的100倍，那么相对于特征1的权重应该比特征2小100倍，以平衡特征1和特征2的影响（这意味着w*x是平衡的）。在这种情况下，如果特征2有效，其权重会试图增大，但受到模型的限制，因此特征2无法发挥其效果。

学技术

何时应用数据白化

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复