从单个词中提取特征

通常，人们希望通过词袋模型从文本中提取特征，统计词频并计算不同的度量，例如tf-idf值，像这样：如何将词作为分类中的数值特征

但我的问题有所不同，我希望从单个词中提取特征向量。例如，我希望知道土豆和薯条在向量空间中彼此接近，因为它们都是由土豆制成的。我还希望知道牛奶和奶油、热和暖、石头和硬等词语也彼此接近。

这种问题被称为什么？我能通过查看大量文档来学习词语的相似性和特征吗？

我不会在英语中进行实现，所以我不能使用数据库。

回答：

嗯，文本数据的特征提取（例如tf-idf）是基于统计的。另一方面，你寻找的是意义（语义）。因此，像tf-idf这样的方法对你不起作用。

在自然语言处理中存在三个基本层次：

形态分析
句法分析
语义分析

（数字越大代表问题越大 :))。形态分析对于大多数语言来说是已知的。句法分析是一个更大的问题（它处理的是一些句子中的动词、名词等）。语义分析面临的挑战最多，因为它处理的是意义，这在机器中很难表示，有许多例外，并且是特定于语言的。

据我所知，你想了解词语之间的某些关系，这可以通过所谓的依存树库（或简称树库）来实现：http://en.wikipedia.org/wiki/Treebank。它是一个句子的数据库/图，其中一个词可以被视为一个节点，关系被视为弧。对于捷克语有一个很好的树库，英语也有一些，但对于许多“覆盖较少”的语言来说，找到一个可能是个问题…

学技术

从单个词中提取特征

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复