余弦相似度和使用相同源数据的完全不同结果

我正在学习词嵌入和余弦相似度。我的数据由两组相同的词组成,但分别属于两种不同的语言。

我进行了两个测试:

  1. 我使用词向量的平均值来测量余弦相似度(我认为这应该被称为软余弦相似度)
  2. 我使用词向量来测量余弦相似度

我应该期望得到相当相同的结果吗?我注意到有时候我会得到两个相反的结果。由于我是新手,我正试图弄清楚我是否做错了什么,或者是否有背后的解释。根据我所读到的,软余弦相似度应该比通常的余弦相似度更准确。

现在,是时候展示一些数据给你们看了。不幸的是,我无法发布我的数据的一部分(词本身),但我会尽力给你们提供我能提供的最大信息量。

在开始之前,还有一些其他细节:

  • 我使用FastText创建嵌入,使用默认参数的skipgram模型。
  • 对于软余弦相似度,我使用了Scipy空间距离余弦。根据一些人的建议,要测量余弦相似度,似乎应该从公式中减去1,如下所示:

(1-distance.cosine(data['LANG1_AVG'].iloc[i],data['LANG2_AVG'].iloc[i]))

  • 对于通常的余弦相似度,我使用了来自FastText多语言Fast Vector余弦相似度,定义如下:

    @classmethoddef cosine_similarity(cls, vec_a, vec_b): """计算vec_a和vec_b之间的余弦相似度""" return np.dot(vec_a, vec_b) / \ (np.linalg.norm(vec_a) * np.linalg.norm(vec_b))

如您将从此处的图像中看到,对于某些词,我使用两种方法得到了相同或相当相似的结果。对于其他词,我得到了完全不同的结果。我该如何解释这一点?

我的数据 v2


回答:

经过进一步的研究,我发现了一篇2014年的论文(软相似度和软余弦测度:向量空间模型中特征的相似度),该论文解释了何时以及如何使用特征的平均值可能有用,并且还解释了什么是软余弦测度:

我们的想法更为普遍:我们建议修改向量空间模型中相似度的计算方式,考虑到特征的相似性。如果我们将这个想法应用到余弦测度上,那么就引入了“软余弦测度”,与传统的“硬余弦”相反,后者忽略了特征的相似性。请注意,当我们考虑每对特征的相似性时,这相当于在VSM中引入新的特征。从本质上讲,我们有一个特征对之间的相似性矩阵,所有这些特征在VSM中代表新的维度。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注