我构建了一个回归数据模型来根据几个自变量预测房价,并得到了带有系数的回归方程。在拆分数据集之前,我使用了StandardScaler()来缩放我的变量。现在我想在给定新的自变量值时使用我的回归模型来预测房价。对于这件事,我可以直接使用自变量的值来计算价格吗?还是在包含自变量的值之前,我应该先将这些值通过StandardScaler()方法处理?
回答:
回答你的问题,是的,你也需要处理你的测试输入,但请考虑以下解释。
StandardScaler()通过移除均值并缩放到单位方差来标准化特征。
如果你在整个数据集上拟合缩放器然后再拆分,缩放器会在计算均值和方差时考虑所有值。
理想情况下,测试集不应该与训练数据一起预处理。这将确保不会“提前窥探”。训练数据应该单独预处理,一旦模型创建好,我们可以将用于训练集的相同预处理参数应用到测试集上,就好像测试集之前不存在一样。