你是否在训练数据和测试数据上分别应用了最小-最大缩放?

在应用最小-最大缩放来标准化你的特征时,你是在将数据集分成训练、验证和测试数据之前对整个数据集进行最小-最大缩放吗?

还是你先进行分割,然后对每个数据集分别应用最小-最大缩放,使用该特定数据集的最大值和最小值?

最后,在对新输入进行预测时,该输入的特征是否应该使用训练数据的最大值和最小值进行标准化,然后再输入到网络中?


回答:

先分割,再缩放。可以这样想象:你不知道现实世界的数据是什么样子的,所以你无法将训练数据缩放到它上面。你的测试数据是现实世界数据的替代品,所以你应该以相同的方式对待它。

重申一下:先分割,然后对你的训练数据进行缩放,再将训练数据的缩放应用到测试数据上。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注