假设你有一个词queen
的词向量。它的某些标量倍数可能是x = queen + queen
,y = queen + queen + queen
以及n * queen
,其中n可以是任何实数(因此我们也考虑非整数值的n,例如0.83 * queen
)。
假设x是与向量queen + queen最相似的词,根据词向量queen + queen与最相似词的投影权重向量的简单平均值之间的余弦相似性来判断。
假设y是与向量queen + queen + queen最相似的词,采用相同的方法来判断。
那么,词x
、y
和queen
之间的预期语义关系是什么?我知道这些向量在向量维度值之间的比率是相同的,但我很难理解这在词义方面如何解读。
我的直觉告诉我,我会得到另一个语境中的词,该词在这个语境中的地位类似于queen。例如,女王的“财富”可能显著大于女王的“美丽”。因此,我会得到另一个语境中的词,该词具有与“queen”相同的财富/美丽平衡。
所以假设当我将queen乘以n时,我从皇室头衔(queen, king, princess…)转移到福布斯榜单(Jeff Bezos, Bill Gates, Warren Buffet…)。
queen * n = 福布斯榜单上与queen具有相同财富/美丽平衡的人(非常富有,但不太漂亮)
princess * n = 福布斯榜单上与princess具有相同财富/美丽平衡的人(适度富有,但非常漂亮)
然而,这只是一个大胆的理论,我完全不知道如何系统地证明这是真实的。
回答:
与wv['queen']
最余弦相似的词,与n * wv['queen']
最余弦相似的词是完全相同的,因为余弦相似性不受向量大小影响。因此,你的假设是错误的。
如果你使用欧几里得距离而不是余弦相似性,在未经单位归一化的原始词向量上,你可能会发现一些其他有趣的关系……但这不是使用/比较词向量的典型方式,所以你需要进行实验,我对你可能发现什么或是否有用没有任何期望。
一般来说,未经单位归一化的原始词向量,对于那些具有单一狭义的词(它们出现的所有语境都非常相似),其大小往往较大,而对于具有多种意义和多样化语境的词,其大小往往较小。但我认为你不能过分依赖这一点。一旦词向量被归一化为单位长度——从而所有词都位于同一个“单位球”上——那么最邻近词的排名顺序无论是通过余弦距离还是欧几里得距离都会相同(尽管在每个排名上的距离/相似性数值的大小不会相同或成比例)。