Scikit-learn中F1值小于精确率和召回率

我正在进行多类别分类，类别分布不均衡。

我注意到F1值总是小于精确率和召回率的直接调和平均值，在某些情况下，F1值甚至小于精确率和召回率。

供参考，我使用metrics.precision_score(y,pred)来计算精确率等指标。

我了解微平均和宏平均的区别，并通过precision_recall_fscore_support()的类别结果测试确认这不是微平均的结果。

不确定这是因为使用了宏平均还是其他原因导致的？

以下是更新后的详细结果：

样本数：75，特征数：250

MultinomialNB(alpha=0.01, fit_prior=True)

2折交叉验证：

第一次运行：

F1:        0.706029106029Precision: 0.731531531532Recall:    0.702702702703         precision    recall  f1-score   support      0       0.44      0.67      0.53         6      1       0.80      0.50      0.62         8      2       0.78      0.78      0.78        23avg / total       0.73      0.70      0.71        37

第二次运行：

F1:        0.787944219523Precision: 0.841165413534Recall:    0.815789473684         precision    recall  f1-score   support      0       1.00      0.29      0.44         7      1       0.75      0.86      0.80         7      2       0.82      0.96      0.88        24avg / total       0.84      0.82      0.79        38

总体情况：

总体F1分数:   0.74699 (+/- 0.02)总体精确率:  0.78635 (+/- 0.03)总体召回率:     0.75925 (+/- 0.03)

关于微平均/宏平均的定义来自Scholarpedia：

在多标签分类中，计算跨类别聚合得分的最简单方法是平均所有二元任务的得分。由此产生的得分称为宏平均召回率、精确率、F1等。另一种平均方法是首先对所有类别的TP、FP、TN、FN和N进行求和，然后计算上述每个指标。由此产生的得分称为微平均。宏平均赋予每个类别相同的权重，通常由系统在类似幂律分布的稀有类别（多数）上的表现所主导。微平均赋予每个文档相同的权重，通常由系统在最常见类别上的表现所主导。

这是一个当前在Github上的开放问题，编号为#83。

以下示例展示了微平均、宏平均和加权平均（Scikit-learn当前使用的）可能的差异：

y    = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2]pred = [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 2, 0, 1, 2, 2, 2, 2]

混淆矩阵：

[[9 3 0] [3 5 1] [1 1 4]]Wei Pre: 0.670655270655Wei Rec: 0.666666666667Wei F1 : 0.666801346801Wei F5 : 0.668625356125Mic Pre: 0.666666666667Mic Rec: 0.666666666667Mic F1 : 0.666666666667Mic F5 : 0.666666666667Mac Pre: 0.682621082621Mac Rec: 0.657407407407Mac F1 : 0.669777037588Mac F5 : 0.677424801371

上面的F5是F0.5的简写…

回答：

请更新您的问题，添加以下输出的结果：

>>> from sklearn.metrics import classification_report>>> print classification_report(y_true, y_predicted)

这将显示每个类别的精确率和召回率以及支持度，从而帮助我们理解平均方法的运作方式，并决定这是否是适当的行为。

学技术

Scikit-learn中F1值小于精确率和召回率

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复