我正在处理一个文本分类问题,需要将示例分类到34个组别中。
问题在于,34个组别的训练数据量并不均衡。有些组别我有2000多个示例,而有些组别只有100多个示例。
对于一些小组别,分类准确率相当高。我猜测这些组别可能有特定的关键词来识别和分类。而对于另一些组别,准确率较低,且预测结果总是偏向于大组别。
我想知道如何处理“低频示例问题”。简单地复制和重复小组别数据是否有效?还是我需要选择训练数据并扩展和平衡数据量?有什么建议吗?
回答:
正则化有时可以通过减少虚假相关性的影响来帮助解决类别不平衡问题,但这取决于你的数据。一个解决方案是简单地对较小的类别进行过采样,或者增加较小类别中数据点的权重,以迫使分类器更加关注这些数据点。
你可以通过搜索“类别不平衡”问题找到更多高级技术。尽管这些技术中并没有很多被应用或为文本分类问题所创建,因为在处理文本问题时通常会有大量数据。所以我不确定在这种高维空间中有多少技术能很好地工作。