机器学习 – 使用算法检查文档是否有效

我是机器学习的新手。我有一个需求,需要预测文档是有效还是无效。我只有10000份有效文档(没有任何无效文档)。我看到了一些算法,例如:朴素贝叶斯、SVM等。这里的概念是训练模型时必须提供两种类型的文档(有效和无效),这样它才能通过与两种训练文档进行比较来预测文档。

有没有什么方法或算法,可以仅使用有效文档就判断文档是有效还是无效(可能是以百分比显示,例如:40%有效,60%无效)?


回答:

一种方法可以尝试单类分类。在机器学习中,单类分类(OCC)试图通过仅从包含该类对象的训练集中学习,来识别特定类别的对象。OCC的任务是定义一个围绕正类(目标类)的分类边界,使其尽可能多地接受来自正类的对象,同时最小化接受负类(异常值)对象的几率。这是一种一对多的分类,其中“多”在训练期间未被观察到。在你的情况下,模型将学会分类和识别有效文档,其余的将被视为无效文档。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注