我有一个用于分类的数据集,包含3个类别标签 [0,1,2]
。
我想运行交叉验证并尝试几种估计器,但我只对类别1和2的精确度评分感兴趣。我不关心类别0的精确度,并且不希望它的评分影响CV优化。我也不关心任何类别的召回率。换句话说,我希望确保每当预测出1或2时,置信度非常高。
那么问题来了,如何运行 cross_val_score
并告诉它的评分函数忽略类别0的精确度呢?
更新:根据接受的答案,这里有一个示例代码:
def custom_precision_score(y_true,y_pred): precision_tuple, recall_tuple, fscore_tuple, support_tuple = metrics.precision_recall_fscore_support(y_true, y_pred) precision_tuple = precision_tuple[1:] support_tuple = support_tuple[1:] weighted_precision = np.average(precision_tuple, weights=support_tuple) return weighted_precisioncustom_scorer = metrics.make_scorer(custom_precision_score)scores = cross_validation.cross_val_score(clf, featuresArray, targetArray, cv=10, scoring=custom_scorer)
回答:
cross_val_score
包含一个可调用的评分对象,可以使用 make_scorer
设置你自己的测试策略。你可以在自定的评分函数 score_func(y, y_pred, **kwargs)
中设置你要测试的组别,该函数由 make_scorer
调用。