我是机器学习的新手。经过大量研究后,我决定尽可能多地使用Sci-Kit Learn。但我现在还处于起步阶段。
我想做的就是对我的文档进行欧几里得距离测量。我使用NLTK来预处理文本,并使用Sci-Kit来提取文档特征。现在我想测量文档的欧几里得距离。
这是Sci-Kit的欧几里得距离测量文档。对我这个新手来说,不清楚应该传递哪些特征给函数(即euclidean_distances())。谁能告诉我需要传递给Sci-Kit的欧几里得距离函数的参数是什么?
感谢任何帮助。
回答:
只需将向量化的fit_transform
方法的输出传递给它即可。
from sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.metrics.pairwise import euclidean_distancesv = TfidfVectorizer()X = v.fit_transform(your_documents)D = euclidean_distances(X)
现在D[i, j]
就是文档向量X[i]
和X[j]
之间的欧几里得距离。