我在使用knn进行分类任务时，数据集是否需要归一化或标准化？

我在尝试使用knn进行分类任务，我的数据集包含经过独热编码的分类特征，像价格等数值特征，以及针对文本列的词袋（CountVectorizer）向量。

我知道knn受缩放影响。所以我对该使用什么感到困惑？

from sklearn.preprocessing import StandardScalerfrom sklearn.preprocessing import Normalizerfrom sklearn.preprocessing import normalize

回答：

我的建议是使用MinMaxScaler进行缩放。

主要原因之一是你的特征如价格不能有负值，而且如你所述，数据可能是稀疏的。

来自文档：

使用这种缩放方法的动机包括对特征非常小的标准差的鲁棒性，以及保留稀疏数据中的零值。

与此同时，如果你的数值变量具有巨大的方差，那么可以考虑使用RobustScaler或StandardScaler。

你不需要对经过独热编码的特征进行缩放。

对于词袋（BoW），保留数据的稀疏性很重要。如果你使用StandardScaler，你会失去稀疏性。你绝对应该选择MinMaxScaler。另一个选项是使用TfidfVectorizer，它默认执行l2归一化。

学技术