我正在尝试理解如何使用无监督学习将我的数据分成不同的聚类。例如,使用k-means方法。
我有20列数据,如何将其投影到二维平面上,同时不丢失18列中的必要信息?
我应该使用什么方法来实现这一点?
任何帮助都将不胜感激。
回答:
如果你只是想在二维空间中查看你的数据,可以考虑使用t-SNE。scikit-learn
的Python包有一个很好的实现,你可以使用。然而,请记住不要在t-SNE的输出上进行聚类,因为在这一过程中,数据所在的空间会发生显著的 distortion(只有短距离被保持,而长距离则被严重改变,变得更短或更长)。