我刚开始学习nltk,并且在按照书本学习。第六章是关于文本分类的,我对某件事有点困惑。在示例中(名字和电影评论),分类器被训练来在两个明确定义的标签之间进行选择(男性-女性,和正面-负面)。但是,如果只有一个标签,该如何训练呢?
假设我有一堆电影情节大纲,我只对从中找出科幻类型的电影感兴趣。我能否训练一个分类器仅识别科幻情节,并且如果分类置信度大于80%,就将其归入科幻组,否则就忽略它?
希望有人能澄清,谢谢,
回答:
你可以简单地训练一个二元分类器来区分科幻和非科幻。
因此,训练那些被标记为科幻的电影情节,同时也训练其他所有类型的一个选择。最好是为其他类型准备一个同样大小的代表性样本,这样就不全是浪漫喜剧类型了,例如。