如果我有一组句子,如何使用word2vec为每对句子获取相似度得分?此外,对于句子相似度,使用word2vec是否比其他方法(如余弦相似度)更好?
回答:
如果我没记错的话,word2vec产生的是从词到向量的映射,但并没有提出对于更大结构(如句子)的向量表示。为了找出两个句子之间的相似度,你需要从每个句子中词的向量表示转变为每个句子本身的向量表示。从那里你可以使用常规的向量距离度量(余弦相似度,通过归一化向量的点积计算)来比较它们。
如何将词向量组合成句子向量取决于你,但一种简单的方法是将词向量全部相加。