如何向Scikit-learn分类器添加加权损失？

在许多机器学习应用中，可能需要加权损失，因为某些类型的错误预测可能比其他错误更严重。例如，在医学二元分类（健康/生病）中，假阴性，即患者未得到进一步检查的结果比假阳性更严重，假阳性可以通过后续检查发现错误。

所以如果我定义一个像这样的加权损失函数：

def weighted_loss(prediction, target):    if prediction == target:        return 0  # 正确，无损失    elif prediction == 0:  # 类别0是健康        return 100  # 假阴性，非常糟糕    else:        return 1  # 假阳性，不正确

如何将类似于这个的函数传递给Scikit-learn分类器，如随机森林或SVM分类器？

回答：

我担心你的问题提得不好，源于对损失和指标这两个不同概念的根本性混淆。

损失函数不适用于prediction == target类型的条件——这是指标（如准确率、精确率、召回率等）的作用，这些指标在损失优化（即训练）过程中没有任何作用，仅用于性能评估。损失不适用于硬类别预测；它仅适用于分类器的概率输出，在这种情况下，平等条件永远不会适用。

在损失和指标之间增加一层“隔离”的选择是阈值，这是将分类器的概率输出（在训练过程中唯一重要的东西）转换为“硬”类别预测（在考虑的业务问题中唯一重要的东西）所必需的。同样，这个阈值在模型训练（唯一相关量是损失，它对阈值和硬类别预测一无所知）过程中绝对不起作用；正如在Cross Validated线程中所说Reduce Classification Probability Threshold：

当你为新样本的每个类别输出一个概率时，你的练习的统计部分就结束了。选择一个阈值，在此之上你将一个新观测分类为1而不是0，不再是统计的一部分。这是决策的一部分。

虽然你当然可以尝试用额外的程序来优化这个（决策）阈值，这些程序在狭义定义的模型训练（即损失最小化）之外，正如你在评论中简要描述的，你的期望

我非常确定，如果RBFs绘制的决策边界在拟合数据时考虑到这一点，我会得到更好的结果

用类似于你的weight_loss函数的东西是徒劳的。

因此，这里展示的类似于你的weight_loss的函数（本质上是一个指标，而不是损失函数，尽管它的名字），使用prediction == target这样的平等条件，不能用于模型训练。

以下SO线程中的讨论也可能有助于澄清这个问题：

Loss & accuracy – Are these reasonable learning curves?
What is the difference between loss function and metric in Keras?（尽管标题如此，定义普遍适用，不仅限于Keras）
Cost function training target versus accuracy desired goal
How to interpret loss and accuracy for a machine learning model

学技术

如何向Scikit-learn分类器添加加权损失？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复