我在客户支持领域进行情感分析时使用了朴素贝叶斯分类器。但不幸的是,我在客户支持领域没有大量的标注数据集。不过,我在同一领域有少量标注数据(大约100个正面和100个负面)。我还拥有亚马逊产品评论数据集。
有没有办法使用Mahout实现一个加权的朴素贝叶斯分类器,以便我可以给少量的客户支持数据赋予更高的权重,而给亚马逊产品评论数据赋予较低的权重。我认为对上述加权数据集进行训练会大幅提高准确性。请帮助我实现这一点。
回答:
一个非常简单的办法是过采样。也就是说,在你的训练数据中多次重复客户支持的例子。
虽然这不是同一个问题,但你可以通过研究用于解决类别不平衡的方法来获得更多想法;特别是提到的过采样和欠采样方法。