仅为一个标签训练nltk分类器

我刚开始学习nltk,并且在按照书本学习。第六章是关于文本分类的,我对某件事有点困惑。在示例中(名字和电影评论),分类器被训练来在两个明确定义的标签之间进行选择(男性-女性,和正面-负面)。但是,如果只有一个标签,该如何训练呢?

假设我有一堆电影情节大纲,我只对从中找出科幻类型的电影感兴趣。我能否训练一个分类器仅识别科幻情节,并且如果分类置信度大于80%,就将其归入科幻组,否则就忽略它?

希望有人能澄清,谢谢,


回答:

你可以简单地训练一个二元分类器来区分科幻非科幻

因此,训练那些被标记为科幻的电影情节,同时也训练其他所有类型的一个选择。最好是为其他类型准备一个同样大小的代表性样本,这样就不全是浪漫喜剧类型了,例如。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注