分类器是如何分类的？

在训练任何分类器之后，分类器会给出数据点属于某个类别的概率。

y_pred = clf.predict_proba(test_point)

分类器是根据最大概率来预测类别，还是将这些概率视为分布并根据分布进行抽样？

换句话说，假设输出概率是 –

C1 - 0.1      C2 - 0.2      C3 - 0.7

输出结果总是C3，还是只有70%的时间是C3？

回答：

从类别概率分数到类别的过程通常称为“决策函数”，并且通常被认为是独立于分类器本身的。在scikit-learn中，许多估计器都有一个默认的决策函数，可以通过predict()访问，对于多类问题，这通常只返回最大值（argmax函数）。

然而，这可以根据需要以各种方式扩展。例如，如果预测某一类别的后果非常严重，那么可以对这些概率进行加权（类别加权）。或者可以有一个决策函数，只有在置信度高的情况下才输出类别，否则返回错误或备用类别。

也可以进行多标签分类，输出不是单个类别，而是一组类别。[ 0.6, 0.1, 0.7, 0.2 ] -> (class0, class2) 这些可以使用一个公共阈值，或每个类别的阈值。这在标签问题中很常见。

但在几乎所有情况下，决策函数都是一个确定性函数，而不是概率函数。

学技术