我使用朴素贝叶斯算法创建了一个词语情感应用程序。
在这种分类训练数据中有两种类型的标准,即正面训练数据和负面训练数据。我对每一组已分类的训练数据中的每个独特词语进行处理。因此,我得到了每种数据标准的所有独特词语。然后,我计算每个独特词语出现的概率值。
问题出现在使用不均衡的训练数据时。例如:我使用了60%的负面训练数据和40%的正面训练数据。那么测试数据的结果将更可能倾向于负面结果,反之亦然。
除了使用平衡的数据之外,我应该做些什么来解决这个问题?还有没有其他方法可以添加?
回答:
朴素贝叶斯需要平衡的训练数据,因为每个参数的可能性受到先验值(优先值)的影响。
这个先验值是从每条数据的类别中获取的。或许你已经明白了我在解释这类事情时的意思。