scikit learn对停用词进行分类

以下是一个逐步指导系统学习和分类输入数据的示例。

它能够正确地对给定的5个数据集领域进行分类。此外,它还可以对停用词进行分类。

例如

输入 : docs_new = ['God is love', 'what is where']

输出 :

'God is love' => soc.religion.christian'what is where' => soc.religion.christian

这里,what is where不应该被分类,因为它只包含停用词。scikit learn在这种情况下是如何运作的?


回答:

我不确定您使用的是哪种分类器。但让我们假设您使用的是朴素贝叶斯分类器。

在这种情况下,样本会被标记为在给定特定词语模式下后验概率最大的类别。
后验概率的计算公式为

后验概率 = 似然性 x 先验概率

请注意,由于证据项是常数,因此被省略了。此外,还有一个加法平滑处理,以避免似然性为零的情况。
无论如何,如果您的输入文本中只有停用词,那么所有类别的似然性都是常数,后验概率完全由您的先验概率决定。因此,基本情况是,如果先验概率是从训练数据中估计的,朴素贝叶斯分类器将分配训练数据中最常出现的类别标签。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注