我是机器学习的新手。我有一个需求,需要预测文档是有效还是无效。我只有10000份有效文档(没有任何无效文档)。我看到了一些算法,例如:朴素贝叶斯、SVM等。这里的概念是训练模型时必须提供两种类型的文档(有效和无效),这样它才能通过与两种训练文档进行比较来预测文档。
有没有什么方法或算法,可以仅使用有效文档就判断文档是有效还是无效(可能是以百分比显示,例如:40%有效,60%无效)?
回答:
一种方法可以尝试单类分类。在机器学习中,单类分类(OCC)试图通过仅从包含该类对象的训练集中学习,来识别特定类别的对象。OCC的任务是定义一个围绕正类(目标类)的分类边界,使其尽可能多地接受来自正类的对象,同时最小化接受负类(异常值)对象的几率。这是一种一对多的分类,其中“多”在训练期间未被观察到。在你的情况下,模型将学会分类和识别有效文档,其余的将被视为无效文档。