机器学习 – 标准化没有理论最大值的特征

对于没有理论最大值的特征，标准化/规范化的最佳方法是什么？

例如，股票价格的趋势一直处于0到1000美元之间，但这并不意味着它不会继续上涨，那么正确的处理方法是什么呢？

我曾考虑过在更高的最大值（例如2000）上训练模型，但感觉不对，因为在1000到2000的范围内没有可用数据，我认为这会引入偏见

回答：

简而言之：使用z分数，可能取对数，可能取逆逻辑斯蒂，可能根本不进行标准化。

如果您希望安全地进行标准化，请使用单调映射，例如：

将(0, inf)映射到(-inf, inf)，您可以使用y = log(x)

将(-inf, inf)映射到(0, 1)，您可以使用y = 1 / (1 + exp(-x))（逆逻辑斯蒂）

将(0, inf)映射到(0, 1)，您可以使用y = x / (1 + x)（对数后的逆逻辑斯蒂）

如果您不关心边界，可以使用线性映射：y=(x - m) / s，其中m是您的特征的均值，s是其标准差。这被称为标准缩放，有时也称为z分数化。

您应该问自己的问题是：为什么要进行标准化？ 您将如何使用您的数据？作为输入特征使用？还是作为预测目标使用？

对于输入特征，保持未标准化是可以的，除非您对模型系数进行正则化（如Ridge或Lasso），这些方法在所有系数都在同一尺度上时（即经过标准缩放后）效果最佳。

对于目标特征，保持未标准化有时也是可以的。

加性模型（如线性回归或梯度提升）有时在对称分布下效果更好。股票价格（以及一般货币值）的分布通常向右偏斜，因此取对数会使它们更易处理。

最后，如果您使用带有Sigmoid激活函数的神经网络来预测您的特征，它是固有有界的。在这种情况下，您可能希望目标也是有界的。为了实现这一点，您可以使用x / (1 + x)作为目标：如果x始终为正，这个值将始终在0到1之间，就像神经网络的输出一样。

学技术