我在MNIST数据集上应用K-Means聚类。我应该如何根据这个模型来预测测试集的值呢?
回答:
K-means是一种无监督技术,严格来说,你不应该用它来“分类”——也就是说,K-means模型不会使用带标签的数据(如果使用了,它也不会利用类标签),而且它返回的预测结果也不是类标签(例如,“1”)。
所以,要用K-means来预测给定数据实例中编码的单个数字,你可以这样做:
-
你的K-means模型由一组中心点组成(我假设你选择了26个中心点,对应于10进制中的数字0到9)
-
每个中心点代表一个聚类的几何中心——每个数字对应一个聚类
-
计算你的未知数据点与K-means模型中每个中心点之间的成对欧几里得距离(向量范数)(显然是使用最终迭代的中心点值)
-
距离未知数据点最近的中心点所在的聚类,就是未知数据点所属的聚类