从单个词中提取特征

通常,人们希望通过词袋模型从文本中提取特征,统计词频并计算不同的度量,例如tf-idf值,像这样:如何将词作为分类中的数值特征

但我的问题有所不同,我希望从单个词中提取特征向量。例如,我希望知道土豆和薯条在向量空间中彼此接近,因为它们都是由土豆制成的。我还希望知道牛奶和奶油、热和暖、石头和硬等词语也彼此接近。

这种问题被称为什么?我能通过查看大量文档来学习词语的相似性和特征吗?

我不会在英语中进行实现,所以我不能使用数据库。


回答:

嗯,文本数据的特征提取(例如tf-idf)是基于统计的。另一方面,你寻找的是意义(语义)。因此,像tf-idf这样的方法对你不起作用。

在自然语言处理中存在三个基本层次:

  1. 形态分析
  2. 句法分析
  3. 语义分析

(数字越大代表问题越大 :))。形态分析对于大多数语言来说是已知的。句法分析是一个更大的问题(它处理的是一些句子中的动词、名词等)。语义分析面临的挑战最多,因为它处理的是意义,这在机器中很难表示,有许多例外,并且是特定于语言的。

据我所知,你想了解词语之间的某些关系,这可以通过所谓的依存树库(或简称树库)来实现:http://en.wikipedia.org/wiki/Treebank。它是一个句子的数据库/图,其中一个词可以被视为一个节点,关系被视为弧。对于捷克语有一个很好的树库,英语也有一些,但对于许多“覆盖较少”的语言来说,找到一个可能是个问题…

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注