使用朴素贝叶斯分类器进行文档分类

我正在使用Mahout中的简单朴素贝叶斯算法制作一个文档分类器。目前，我拥有的数据（文档）中有98%属于A类，只有2%属于B类。我的问题是，由于A类文档和B类文档的百分比差距如此之大，分类器是否仍然能够准确地进行训练？

我考虑的做法是忽略大量的A类文档，并“操纵”我现有的数据集，使得文档的构成比例没有那么大的差距。这样，我最终得到的数据集将包含30%的B类和70%的A类。但是，这样做是否有我不知道的任何后果？

回答：

你不一定需要通过抽样减少A类数据集的实例。有几种方法可以有效地从不平衡数据集中学习，例如多数类欠采样（你所做的正是这种方法）、少数类过采样、SMOTE等。这里有一个这些方法的实证比较：http://machinelearning.org/proceedings/icml2007/papers/62.pdf

或者，你可以为分类器定义一个自定义的成本矩阵。换句话说，假设B类为正类，你可以定义成本(假阳性) < 成本(假阴性)。在这种情况下，分类器的输出将偏向于正类。这里有一个非常有用的教程：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.4418&rep=rep1&type=pdf

学技术

使用朴素贝叶斯分类器进行文档分类

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复