Home IT技术数据标准化 vs 归一化 vs 鲁棒缩放器

数据标准化 vs 归一化 vs 鲁棒缩放器

IT技术 xiaolong · 2025年5月1日 · 0 Comment

我在进行数据预处理，想在实践中比较数据标准化、归一化和鲁棒缩放器的优点。

理论上，指导原则是：

优点：

标准化：调整特征，使分布中心位于0，标准差为1。
归一化：缩小范围，使其在0到1之间（如果有负值，则在-1到1之间）。
鲁棒缩放器：类似于归一化，但使用四分位距，因此对异常值具有鲁棒性。

缺点：

标准化：如果数据不是正态分布（即没有高斯分布），效果不佳。
归一化：容易受到异常值（即极端值）的严重影响。
鲁棒缩放器：不考虑中位数，仅关注数据主体的部分。

我创建了20个随机数值输入，并尝试了上述方法（红色数字表示异常值）：

我注意到，归一化确实受到了异常值的负面影响，新值之间的尺度变化变得非常小（所有值几乎相同，十进制点后6位0.000000x），即使原始输入之间存在明显差异！

我的问题是：

我是否可以说标准化也受到了极端值的负面影响？如果不是，根据提供的结果，为什么？
我实在看不出鲁棒缩放器如何改善了数据，因为结果数据集中仍然存在极端值？有什么简单的完整解释吗？

回答：

这些方法在缩放时都不是鲁棒的，无法处理异常值并将其置于一个受限的尺度上，即不会出现极端值。

你可以考虑以下选项：

在缩放之前对序列/数组进行裁剪（例如，在5百分位和95百分位之间）
如果裁剪不理想，可以考虑进行平方根或对数等变换
显然，添加另一列‘是否裁剪’/‘对数裁剪量’将减少信息损失。

batch-normalization machine-learning python scikit-learn standardized

发表回复取消回复