Home IT技术将概念上相似的文档聚类在一起？

将概念上相似的文档聚类在一起？

IT技术 xiaolong · 2025年4月6日 · 0 Comment

这更像是一个概念性的问题，而不是实际的实现，希望有人能澄清。我的目标如下：给定一组文档，我希望将它们聚类，使得属于同一聚类的文档具有相同的“概念”。

据我所知，潜在语义分析让我找到一个术语-文档矩阵的低秩近似，即给定一个矩阵X，它会将X分解为三个矩阵的乘积，其中一个是对角矩阵Σ：

SVD

现在，我将通过选择一个低秩近似，即从Σ中只选择前k个值，然后计算X’。一旦我有了这个矩阵，我必须应用某种聚类算法，最终结果将是一组聚类，将具有相似概念的文档分组。这是应用聚类的方法吗？我是说，计算X’然后在其上应用聚类，还是有其他方法可以遵循？

另外，在我相关问题中，有人告诉我，随着维度的增加，邻居的含义会丢失。在这种情况下，对X’中这些高维数据点进行聚类的理由是什么？我猜想，聚类相似文档是一个现实世界的需求，在这种情况下，人们如何解决这个问题？

回答：

关于你问题的第一部分：不，你不需要再进行任何“聚类”。这种聚类已经从你的奇异值分解中获得。如果这仍然不清楚，请更详细地研究你链接中的潜在语义分析。

关于你的第二部分：请先弄清楚你问题的第一部分，然后根据那个部分重新陈述这个问题。

data-mining machine-learning nlp numpy python

发表回复取消回复