我在学习Udemy课程时,该课程强烈建议仅对训练数据进行标准化(在与测试数据分割后),因为模型通常会用于新的数据,其特征与原始数据集的规模一致。如果你对测试数据进行缩放,那么你实际上并没有正确评估模型的性能。
另一方面,我发现我的二分类逻辑回归模型(使用Azure机器学习工作室创建)在仅对训练数据进行Z分数缩放后,效果非常差。
a. 这是只有Azure工具才存在的问题吗?b. 当特征数据需要缩放时,有什么好的经验法则(例如,数据差异为一、二或三个数量级)?
回答:
由于测试集被标准化而导致模型评分不正确似乎不太合理:你可能会在未来的预测中也对数据进行标准化。
我在数据科学Stack Exchange上找到了一个类似的问题,最佳回答不仅建议测试数据也需要标准化,而且你需要应用与训练数据相同的缩放方法,因为你的模型也会考虑数据的规模:不同缩放的测试/预测数据可能会导致某个特征的过度或不足夸大。