如何根据文档的相似度进行聚类?

我阅读了关于如何根据文档相似度进行聚类的帖子,这里有相关讨论。但我仍然不明白它是如何实现的。我的测试是,我有10个文档的余弦相似度测量。以下是一些示例:

D1  D2   sim(D1,D2)d1  d10 0.6823 d1  d2  0.6377 d1  d8  0.0307 d1  d9  0.0294 d1  d7  0.0284 d1  d3  0.0234 d1  d4  0.0199 d1  d6  0.0110 d1  d5  0.0030 d10 d2  0.7232 d10 d3  0.3898 d10 d4  0.3054 d10 d9  0.0256 d10 d7  0.0227 d10 d8  0.0226 d10 d6  0.0110 d10 d5  0.0060 d2  d3  0.7850 ......

我可以仅根据这些相似度测量来聚类这些文档吗?如果我指定了聚类的数量,该如何操作?如果我不指定聚类的数量,算法能否自动聚类这些文档,该如何操作?提前感谢。


回答:

聚类是机器学习中一个非常重要的领域(可以类比于数学中的“积分”或编程中的“排序”),有数百种不同的算法,针对不同的问题设置和需求。有些算法需要指定聚类的数量,有些则不需要。有些可以仅使用成对的相似度进行工作,有些则需要对被聚类的项目进行明确的表示等。

我建议你从两个经典的聚类算法开始:

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注