我在机器学习领域还是个新手(尽管我觉得它非常有趣),我想开始一个小项目,以便能够应用一些知识。
假设我有一个人的数据集,每个人有N个不同的属性(只有离散值,每个属性可以是任何东西)。
我想找到一组行为相似的群体,即在他们的属性中具有相似模式的人(“相似者”)。
您会如何处理这个问题?有什么想法可以让我开始吗?
我在考虑使用主成分分析(PCA),因为我们可以有任意数量的维度,这可能有助于降维。K-Means呢?我在这个情况下不太确定。有什么想法适合这种情况吗?
我确实知道如何编写这些算法的代码,但我真正缺乏的是实际经验,不知道在什么情况下应用什么方法。
回答:
使用n维属性向量的K-means是一个合理的开始方式。您可能需要调整距离度量,看看它如何影响结果。