关于平衡准确率计算和sci-kit中用于比较平衡与不平衡数据集的评分指标的查询

我有一个包含50个数据点的较小数据集，每个类别各有25个数据点。我正在使用交叉验证进行监督分类。我已经使用整个数据集训练了一个模型，但我也想移除其中一个类别的7个数据点，训练一个单独的模型，并进行比较。这将使我得到负类别25个，正类别18个。我希望使用accuracy作为我的评分指标，因为它在我的领域中使用最广泛，这样我可以将我的结果与他人进行比较。

我想对我的缩减数据集使用这种平衡准确率计算：http://mvpa.blogspot.com/2015/12/balanced-accuracy-what-and-why.html，因为它似乎与平衡集的准确率最直接可比？但sci-kit中的balanced_accuracy评分是一个不同的计算方法（每个类别上获得的召回率的平均值）。

我阅读了很多关于不同指标、不平衡数据集等的内容，我遇到了一个瓶颈。我认为sci-kit中没有我想要的平衡准确率计算方法？我是否需要使用混淆矩阵自己计算它？我不知道我的编程技能是否足够好。这甚至是比较两个数据集（平衡和不平衡）的最佳方法吗？我知道理想情况下应该对平衡数据集使用ROC曲线，对不平衡数据集使用精确召回曲线，所以这并没有真正帮助。

任何帮助将不胜感激。

回答：

您提到的博客文章中所称的“平衡准确率”严格等同于sklearn.metrics.balanced_accuracy_score，正如您指出的那样，它是召回率的平均值。为了让您信服，我重现了博客文章中的示例：

结果：

[[9 1] [2 7]]Accuracy score : 0.842Balanced accuracy score : 0.839

这些值与文章中的示例相匹配！

学技术

关于平衡准确率计算和sci-kit中用于比较平衡与不平衡数据集的评分指标的查询

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复