通常,人们希望通过词袋模型从文本中提取特征,统计词频并计算不同的度量,例如tf-idf值,像这样:如何将词作为分类中的数值特征
但我的问题有所不同,我希望从单个词中提取特征向量。例如,我希望知道土豆和薯条在向量空间中彼此接近,因为它们都是由土豆制成的。我还希望知道牛奶和奶油、热和暖、石头和硬等词语也彼此接近。
这种问题被称为什么?我能通过查看大量文档来学习词语的相似性和特征吗?
我不会在英语中进行实现,所以我不能使用数据库。
回答:
嗯,文本数据的特征提取(例如tf-idf)是基于统计的。另一方面,你寻找的是意义(语义)。因此,像tf-idf这样的方法对你不起作用。
在自然语言处理中存在三个基本层次:
- 形态分析
- 句法分析
- 语义分析
(数字越大代表问题越大 :))。形态分析对于大多数语言来说是已知的。句法分析是一个更大的问题(它处理的是一些句子中的动词、名词等)。语义分析面临的挑战最多,因为它处理的是意义,这在机器中很难表示,有许多例外,并且是特定于语言的。
据我所知,你想了解词语之间的某些关系,这可以通过所谓的依存树库(或简称树库)来实现:http://en.wikipedia.org/wiki/Treebank。它是一个句子的数据库/图,其中一个词可以被视为一个节点,关系被视为弧。对于捷克语有一个很好的树库,英语也有一些,但对于许多“覆盖较少”的语言来说,找到一个可能是个问题…