我想对多个机器学习算法(如神经网络)和逻辑回归的预测变量进行标准化处理(如z-score、最小-最大值等),我有以下疑问:
1) 我应该对整个预测变量进行标准化处理吗,也就是说包括训练数据和测试数据?
2) 我应该对预测变量y进行标准化处理吗?
回答:
1) 正确的做法是标准化你的训练数据,并使用这些转换参数来标准化测试数据。以下是一个单一特征的最小-最大值标准化的例子:
training = [1, 2, 3]test = [0, 4]
标准化后的数据如下:
training_normalized = [0.0, 0.5, 1.0]test_normalized = [-0.5, 1.5]
2) 通常答案是否定的,但有些情况下对目标变量进行转换可能会有所帮助。无论如何,你应该确保你的模型输出能够与目标变量匹配。