Skip to content

学技术

示例页面

Home IT技术 Kmeans在聚类超过3个文档时异常缓慢

Kmeans在聚类超过3个文档时异常缓慢

IT技术 xiaolong · 2025年4月6日 · 0 Comment

很难判断这里问的是什么。这个问题含糊不清、模糊、不完整、过于宽泛或修辞性，无法以目前的形式合理回答。为了澄清这个问题以便重新开放，请访问帮助中心。

已关闭 13年前。

我试图使用kmeans来聚类相似的文档。

我使用的是NLTK的KMeans。

当我只聚类3个文档时，不到5秒就完成了。但一旦我添加第四个文档，它就无法完成（我在10分钟后放弃了）。

当有4个文档时，矢量大小大约是1000。矢量也是稀疏的，但我有8GB的RAM，所以我不担心这个问题。1000不应该太多。

有谁知道为什么它能在5秒内解决3个文档的问题，却无法在10分钟内解决4个文档的问题…至少在我放弃之前？当我投入生产时，理论上它将一次聚类300或400个文档。

我在考虑尝试不同的kmeans库，看看NLTK的实现是否有问题，但如果问题出在我身上，我不想浪费努力。

谢谢大家。

回答：

我切换到了Pycluster库，现在它可以工作了。

相关文章：

最互斥的 k 个元素（聚类？）
K-means文档聚类 – 接下来做什么？
Davies-boudin指数和最大比率
MATLAB kMeans 不总是收敛到全局最小值
如何实现K-Means++算法？
K-Means的内部运作
使用C#对空间中的3D点进行K-means聚类
使用基于距离的方法对分类数据集进行聚类
如何对一组字符串进行聚类？
使用Silhouette聚类在Spark中

cloud-document-ai cluster-analysis k-means machine-learning

Related Posts

使用LSTM在Python中预测未来值

xiaolong · 2025年6月1日 · 0 Comment

这段代码可以预测指定股票的当前日期之前的值，但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

xiaolong · 2025年6月1日 · 0 Comment

我有一个word2vec模型，假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

xiaolong · 2025年6月1日 · 0 Comment

我试图使用 XGBoost 创建模型。看起来我成功地…

ML Tuning – Cross Validation in Spark

xiaolong · 2025年6月1日 · 0 Comment

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

xiaolong · 2025年6月1日 · 0 Comment

我正在开发一个应用程序，其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组？

xiaolong · 2025年6月1日 · 0 Comment

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复取消回复

您的邮箱地址不会被公开。必填项已用 * 标注

评论 *

显示名称 *

邮箱 *

网站

在此浏览器中保存我的显示名称、邮箱地址和网站地址，以便下次评论时使用。

搜索

标签

2d-vector a-star algorithm apache-spark artificial-intelligence auto-keras bilstm c# c++ classification cluster-analysis computer-vision conv-neural-network cox-regression cross-validation data-mining data-science decision-tree deep-learning geopandas gradient-descent image-processing java keras libsvm linear-regression logistic-regression machine-learning matlab neural-network nlp numpy openai-api opencv pandas python python-3.x pytorch random-forest recurrent-neural-network reinforcement-learning scikit-learn statistics tensorflow weka

近期文章

使用LSTM在Python中预测未来值
如何在gensim的word2vec模型中查找双词组的相似性
dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的
ML Tuning – Cross Validation in Spark
如何在React JS中使用fetch从REST API获取预测

分类

IT技术

© 2025 学技术

京ICP备20017344号-7