词向量在word2vec中是彼此的标量倍数时,预期的语义关系是什么?

假设你有一个词queen的词向量。它的某些标量倍数可能是x = queen + queeny = queen + queen + queen以及n * queen,其中n可以是任何实数(因此我们也考虑非整数值的n,例如0.83 * queen)。

假设x是与向量queen + queen最相似的词,根据词向量queen + queen与最相似词的投影权重向量的简单平均值之间的余弦相似性来判断。

假设y是与向量queen + queen + queen最相似的词,采用相同的方法来判断。

那么,词xyqueen之间的预期语义关系是什么?我知道这些向量在向量维度值之间的比率是相同的,但我很难理解这在词义方面如何解读。

我的直觉告诉我,我会得到另一个语境中的词,该词在这个语境中的地位类似于queen。例如,女王的“财富”可能显著大于女王的“美丽”。因此,我会得到另一个语境中的词,该词具有与“queen”相同的财富/美丽平衡。

所以假设当我将queen乘以n时,我从皇室头衔(queen, king, princess…)转移到福布斯榜单(Jeff Bezos, Bill Gates, Warren Buffet…)。

queen * n = 福布斯榜单上与queen具有相同财富/美丽平衡的人(非常富有,但不太漂亮)

princess * n = 福布斯榜单上与princess具有相同财富/美丽平衡的人(适度富有,但非常漂亮)

然而,这只是一个大胆的理论,我完全不知道如何系统地证明这是真实的。


回答:

wv['queen']最余弦相似的词,与n * wv['queen']最余弦相似的词是完全相同的,因为余弦相似性不受向量大小影响。因此,你的假设是错误的。

如果你使用欧几里得距离而不是余弦相似性,在未经单位归一化的原始词向量上,你可能会发现一些其他有趣的关系……但这不是使用/比较词向量的典型方式,所以你需要进行实验,我对你可能发现什么或是否有用没有任何期望。

一般来说,未经单位归一化的原始词向量,对于那些具有单一狭义的词(它们出现的所有语境都非常相似),其大小往往较大,而对于具有多种意义和多样化语境的词,其大小往往较小。但我认为你不能过分依赖这一点。一旦词向量被归一化为单位长度——从而所有词都位于同一个“单位球”上——那么最邻近词的排名顺序无论是通过余弦距离还是欧几里得距离都会相同(尽管在每个排名上的距离/相似性数值的大小不会相同或成比例)。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注