如何计算给定上下文和可能的词汇中哪个词最适合?

遗憾的是,我没有找到任何能帮助我解决这个问题的方法。

我有一句话如下:

 if the age of the applicant is higher than 18, then ... 

还有一组词汇如下:

 higher, bigger, greater, wider 

这些词都相当同义,因为它们都表示某物更大。

现在我想找出,在给定的句子位置中,哪个词最适合。

在这个例子中,最适合的词是’greater’,但例如’higher’也行。在我的具体情况中,如果有人写了’wider’,我想显示一个错误消息,因为这在语义上不合理。

所以我想查看关键词,这在例子中总是明确无误的,以及给出的可能词汇,比如我上面提到的四个词。现在我想计算在这种语义环境下,哪个可能的词最适合替换关键词的位置。


回答:

我认为对此没有一个简单、单一的答案。但作为起点,你可以查看连续词袋模型(CBOW)词嵌入,它旨在根据上下文预测一个词。

作为如何实现的示例,你可以参考:Tensorflow: Word2vec CBOW model 和原始的Word2Vec代码档案:https://code.google.com/archive/p/word2vec/

Related Posts

在使用k近邻算法时,有没有办法获取被使用的“邻居”?

我想找到一种方法来确定在我的knn算法中实际使用了哪些…

Theano在Google Colab上无法启用GPU支持

我在尝试使用Theano库训练一个模型。由于我的电脑内…

准确性评分似乎有误

这里是代码: from sklearn.metrics…

Keras Functional API: “错误检查输入时:期望input_1具有4个维度,但得到形状为(X, Y)的数组”

我在尝试使用Keras的fit_generator来训…

如何使用sklearn.datasets.make_classification在指定范围内生成合成数据?

我想为分类问题创建合成数据。我使用了sklearn.d…

如何处理预测时不在训练集中的标签

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注