我试图使用kmeans来聚类相似的文档。
我使用的是NLTK的KMeans。
当我只聚类3个文档时,不到5秒就完成了。但一旦我添加第四个文档,它就无法完成(我在10分钟后放弃了)。
当有4个文档时,矢量大小大约是1000。矢量也是稀疏的,但我有8GB的RAM,所以我不担心这个问题。1000不应该太多。
有谁知道为什么它能在5秒内解决3个文档的问题,却无法在10分钟内解决4个文档的问题…至少在我放弃之前?当我投入生产时,理论上它将一次聚类300或400个文档。
我在考虑尝试不同的kmeans库,看看NLTK的实现是否有问题,但如果问题出在我身上,我不想浪费努力。
谢谢大家。
回答:
我切换到了Pycluster库,现在它可以工作了。