Home IT技术何时使用Z分数标准化数据（在分割前还是分割后）

何时使用Z分数标准化数据（在分割前还是分割后）

IT技术 xiaolong · 2025年5月28日 · 0 Comment

我在学习Udemy课程时，该课程强烈建议仅对训练数据进行标准化（在与测试数据分割后），因为模型通常会用于新的数据，其特征与原始数据集的规模一致。如果你对测试数据进行缩放，那么你实际上并没有正确评估模型的性能。

另一方面，我发现我的二分类逻辑回归模型（使用Azure机器学习工作室创建）在仅对训练数据进行Z分数缩放后，效果非常差。

a. 这是只有Azure工具才存在的问题吗？b. 当特征数据需要缩放时，有什么好的经验法则（例如，数据差异为一、二或三个数量级）？

回答：

由于测试集被标准化而导致模型评分不正确似乎不太合理：你可能会在未来的预测中也对数据进行标准化。

我在数据科学Stack Exchange上找到了一个类似的问题，最佳回答不仅建议测试数据也需要标准化，而且你需要应用与训练数据相同的缩放方法，因为你的模型也会考虑数据的规模：不同缩放的测试/预测数据可能会导致某个特征的过度或不足夸大。

apache-spark machine-learning scikit-learn

发表回复取消回复