如何根据文档的相似度进行聚类?

我阅读了关于如何根据文档相似度进行聚类的帖子,这里有相关讨论。但我仍然不明白它是如何实现的。我的测试是,我有10个文档的余弦相似度测量。以下是一些示例:

D1  D2   sim(D1,D2)d1  d10 0.6823 d1  d2  0.6377 d1  d8  0.0307 d1  d9  0.0294 d1  d7  0.0284 d1  d3  0.0234 d1  d4  0.0199 d1  d6  0.0110 d1  d5  0.0030 d10 d2  0.7232 d10 d3  0.3898 d10 d4  0.3054 d10 d9  0.0256 d10 d7  0.0227 d10 d8  0.0226 d10 d6  0.0110 d10 d5  0.0060 d2  d3  0.7850 ......

我可以仅根据这些相似度测量来聚类这些文档吗?如果我指定了聚类的数量,该如何操作?如果我不指定聚类的数量,算法能否自动聚类这些文档,该如何操作?提前感谢。


回答:

聚类是机器学习中一个非常重要的领域(可以类比于数学中的“积分”或编程中的“排序”),有数百种不同的算法,针对不同的问题设置和需求。有些算法需要指定聚类的数量,有些则不需要。有些可以仅使用成对的相似度进行工作,有些则需要对被聚类的项目进行明确的表示等。

我建议你从两个经典的聚类算法开始:

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注