何时使用Z分数标准化数据(在分割前还是分割后)

我在学习Udemy课程时,该课程强烈建议仅对训练数据进行标准化(在与测试数据分割后),因为模型通常会用于新的数据,其特征与原始数据集的规模一致。如果你对测试数据进行缩放,那么你实际上并没有正确评估模型的性能。

另一方面,我发现我的二分类逻辑回归模型(使用Azure机器学习工作室创建)在仅对训练数据进行Z分数缩放后,效果非常差。

a. 这是只有Azure工具才存在的问题吗?b. 当特征数据需要缩放时,有什么好的经验法则(例如,数据差异为一、二或三个数量级)?


回答:

由于测试集被标准化而导致模型评分不正确似乎不太合理:你可能会在未来的预测中也对数据进行标准化。

我在数据科学Stack Exchange上找到了一个类似的问题,最佳回答不仅建议测试数据也需要标准化,而且你需要应用与训练数据相同的缩放方法,因为你的模型也会考虑数据的规模:不同缩放的测试/预测数据可能会导致某个特征的过度或不足夸大。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注