我有一组数据,这些数据的标签是通过k-means聚类算法生成的。现在从另一个来源得到了一些具有相同数据结构的新数据,我想知道标记这些新的、未见过的数据最合理的方法是什么?我在考虑以下两种方法:
- 计算到之前k-means质心的距离,并根据距离最近的质心来标记数据
- 在新数据上运行新的算法(例如SVM),使用旧数据作为训练集
遗憾的是,我找不到关于这个特定问题的任何信息。只有少数几个关于k-means作为分类模型的一般使用的问题:
提前感谢。
Uli
回答:
你不需要使用SVM这种方法。第一种方法更为方便。如果你使用的是sklearn,可以参考这个链接https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html,这里有一个例子。predict
函数可以完成你的任务。