余弦相似度与余弦距离

我有一组文档，如下面的示例所示。

doc1 = {'Science': 0, 'History': 0, 'Politics': 0.15,... 'Sports': 0}doc2 = {'Science': 0.3, 'History': 0.5, 'Politics': 0.1,... 'Sports': 0}

我使用上述向量（我的向量大多是稀疏向量）对这些文档进行了DBSCAN聚类。我了解到，对于稀疏向量计算“余弦相似度”非常高效。然而，根据sklearn.DBSCAN的fit文档，你应该使用距离矩阵作为DBSCAN的输入。因此，我想知道如果我使用“余弦相似度”而不是“余弦距离”是否是错误的。

请告诉我解决我问题的最高效方法。是使用余弦距离的DBSCAN 还是使用余弦相似度的DBSCAN？

# 使用余弦距离拟合DBSCANdb = DBSCAN(min_samples=1, metric='precomputed').fit(pairwise_distances(feature_matrix, metric='cosine'))

或者

# 使用余弦相似度拟合DBSCAN    db = DBSCAN(min_samples=1, metric='precomputed').fit(1-pairwise_distances(feature_matrix, metric='cosine'))

回答：

如果你传递一个距离矩阵，它将是O(n²)的复杂度。

如果你传递实际数据，代码可以使用索引来使其比这更快。所以我更倾向于尝试metric="cosine"。

DBSCAN可以很容易地使用相似度而不是距离来实现（参见广义DBSCAN）。我相信我在ELKI中看到了这种支持，但在sklearn中没有。在sklearn中，你可以使用cosine_distance，但有上述缺点。

学技术