从单个词中提取特征

通常,人们希望通过词袋模型从文本中提取特征,统计词频并计算不同的度量,例如tf-idf值,像这样:如何将词作为分类中的数值特征

但我的问题有所不同,我希望从单个词中提取特征向量。例如,我希望知道土豆和薯条在向量空间中彼此接近,因为它们都是由土豆制成的。我还希望知道牛奶和奶油、热和暖、石头和硬等词语也彼此接近。

这种问题被称为什么?我能通过查看大量文档来学习词语的相似性和特征吗?

我不会在英语中进行实现,所以我不能使用数据库。


回答:

嗯,文本数据的特征提取(例如tf-idf)是基于统计的。另一方面,你寻找的是意义(语义)。因此,像tf-idf这样的方法对你不起作用。

在自然语言处理中存在三个基本层次:

  1. 形态分析
  2. 句法分析
  3. 语义分析

(数字越大代表问题越大 :))。形态分析对于大多数语言来说是已知的。句法分析是一个更大的问题(它处理的是一些句子中的动词、名词等)。语义分析面临的挑战最多,因为它处理的是意义,这在机器中很难表示,有许多例外,并且是特定于语言的。

据我所知,你想了解词语之间的某些关系,这可以通过所谓的依存树库(或简称树库)来实现:http://en.wikipedia.org/wiki/Treebank。它是一个句子的数据库/图,其中一个词可以被视为一个节点,关系被视为弧。对于捷克语有一个很好的树库,英语也有一些,但对于许多“覆盖较少”的语言来说,找到一个可能是个问题…

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注