特征缩放的类型之间有什么区别?

维基百科列出了三种特征缩放方法。什么时候应该使用哪一种?(有什么需要考虑的因素?)

具体来说,我需要在使用SVM实现的短语情感分析中使用这些方法。

(注意:我已经看过这个帖子。它很好地解释了不同的方法,但没有说明什么时候应该使用每一种方法)。

谢谢你 🙂


回答:

实际上,很难给出选择缩放还是标准化的合理规则。数据的标准化有很好的理论依据,并且比缩放更不容易受到异常值的影响。因此,标准化是最常用的预处理方法。

特别是,如果你问的是标准化,那么你使用的是某种词袋模型来表示你的数据。在这种情况下,tf-idf是最明显的数据表示选择,实际上它几乎不受任何缩放/标准化的影响,因为它本身已经相当标准化了(由于内部的归一化和对数缩放)。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注