我读了一篇关于特征缩放的文章:all-about-feature-scaling
两种主要的特征缩放技术是:
-
min-max scaler
– 适用于分布非高斯的特征。 -
Standard scaler
– 适用于具有高斯分布的特征。
我阅读了其他文章和示例,似乎我们总是对所有特征使用一种缩放方法(min-max
或 standard
)。
我没有看到有示例或论文建议这样做:
1. 遍历所有特征,对于每个特征:1.1 检查特征分布1.2 如果特征分布是高斯的:1.2.1 对该特征使用标准缩放器1.3 否则:1.3.1 对该特征使用最小-最大缩放器
-
为什么我们不混合使用缩放方法?
-
我的提议有什么问题或缺点?
回答:
然后,你的特征将具有不同的尺度,这是一个问题,因为尺度较大的特征会主导其他特征(例如,在KNN中)。使用最小-最大归一化的特征将被重新缩放到[0,1]范围内,而使用标准化处理的特征将被转换到负到正的范围内(例如,[-2,+2],或者在标准差较小的情况下范围更宽)。