有没有可以在词级和句子级别上都能使用的分类器?

在scikit-learn或nltk中,分类器通常会考虑词频或TF-IDF。

我想在分类时同时考虑词频和句子结构。我有15个类别的问句,每个类别都有一个包含换行符的句子的文本文件。

“城市”类别包含以下句子:

奥巴马出生在哪个城市?

如果我只考虑词频,那么以下句子可能不会被考虑,因为数据集中没有与查询句子匹配的“奥巴马”或“城市”。

1. 哈利出生在哪个地方? 2. 哈利出生在哪个城市?

有没有一种分类器可以同时考虑词频和句子结构?这样在训练后,它也能对具有相似句子结构的输入查询进行分类。


回答:

你可以同时在ngram和unigram上训练tf-idf。在Scikit Learn中,你可以指定ngram_range来决定考虑的范围:如果你设置为训练到3-gram,你将存储像“在哪个地方”这样的词组合的频率,这对于问句的类型是很有指示性的。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注