如果所有特征的尺度相同,我是否需要对数据进行归一化?例如,所有列都是特征,每一行/样本是每个特征的发生次数?如果需要归一化,我需要进行特征级别还是样本级别的归一化?
回答:
不,如果你的所有特征都在同一尺度上,你不需要对数据进行归一化。
对于标准化,你需要检查数据的统计分布,确保它们具有标准正态分布,均值μ=0,标准差σ=1;其中μ是均值(平均值),σ是从均值的标准差。
你可以通过在pandas中调用.describe()
来查看你的数据,并调查mean
和std
。如果某些特征具有正态分布而其他特征没有,你可以对整个数据集进行样本级别的标准化。