在训练倾斜数据集时使用精确度和召回率

我有一个倾斜的数据集（5,000,000个正例和仅8000个负例[二分类]），因此，我知道准确率并不是一个有用的模型评估指标。我知道如何数学上计算精确度和召回率，但我不确定如何在Python代码中实现它们。

当我用所有数据训练模型时，总体准确率达到99%，但在负例上的准确率为0%（即，将所有样本都分类为正例）。

我当前的模型是用Pytorch构建的，使用了criterion = nn.CrossEntropyLoss()和optimiser = optim.Adam()。

所以，我的疑问是，如何将精确度和召回率纳入我的训练中，以生成最佳模型？

提前感谢

回答：

精确度、召回率和F1分数等指标的实现通常是从Python的scikit-learn库中导入的。

关于你的分类任务，正样本的数量完全压倒了负样本。尝试减少正样本的数量进行训练，或者生成更多的负样本。考虑到类别倾斜，我不确定深度神经网络能否为你提供最优的结果。

负样本可以使用合成少数过采样技术（SMOT）生成。这是开始的一个好地方。链接：https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-problem/

尝试先使用简单的模型，如逻辑回归或随机森林，看看模型的F1分数是否有任何改善。

学技术