我执行了scikit-learn的k-means算法并得到了结果质心。我有一个新的文档(不在初始集合中),我想计算每个质心与新文档之间的距离,以便知道它应该被放置在哪个簇中。
是否有内置函数可以实现这一点,还是我应该手动编写一个相似度函数?
回答:
您可以使用方法 predict
来获取矩阵 X
中每个样本最接近的簇:
from sklearn.cluster import KMeansmodel = KMeans(n_clusters=K)model.fit(X_train)label = model.predict(X_test)