Torch7使用权重处理不平衡训练集

我在我的卷积神经网络中使用了CrossEntropyCriterion。我有150个类别，每个类别的训练文件数量非常不平衡（从5到2000个文件不等）。根据文档，我可以通过使用权重来补偿这种不平衡：

criterion = nn.CrossEntropyCriterion([weights])

“如果提供了权重这个可选参数，它应该是一个一维张量，为每个类别分配权重。这在你有一个不平衡的训练集时特别有用。”

权重应该采用什么格式？例如：类别n中的训练文件数量 / 总训练文件数量。

回答：

我假设你希望通过这种方式平衡你的训练，即让小类别变得更重要。一般来说，可能的权重设置是无限的，这会导致不同的结果。其中一种最简单的设置是假设每个类别都应该同等重要（因此有效地忽略了经验先验），即设置权重与

1 / # samples_in_class

成比例，例如

weight_of_class_y = # all_samples / # samples_in_y

这样，如果你有5:2000的不平衡比例，小类别对于模型来说会变得重要400倍。

学技术