如何训练多标签正确的机器学习分类模型？

我有一个包含20个特征和8个可能标签的简单数据集。然而，对于某些记录，可能存在多个正确的标签。我希望训练这个模型，使得预测的标签是可能标签之一。有什么好的方法可以实现这一点吗？

示例：考虑以下记录：

[color: grey; legs:2; wings:2; mass: 120g;....]

一些记录被标记为“麻雀”，而其他一些被标记为“鸟”。在测试期间，只要分配给记录的标签是其中之一，我并不关心具体是哪个标签。

回答：

这当然取决于模型，但如果你使用的是带有交叉熵损失的神经网络，这是完全可能的。通常情况下，标签是一个独热向量 [0, ..., 0, 1, 0, ... 0]。它的概率解释是目标类是 i 的概率为 1.0（其他所有类的概率为 0.0）。

没有什么能阻止你定义标签为 [0, ..., 0, 0.5, 0, ..., 0, 0.5, 0, ... 0]：正确的类是 i 的概率为 0.5，j 的概率为 0.5。这样，模型就会学习到这两个标签对于给定的输入都是正确的。模型训练完成后，你甚至可以输出两个或更多类，例如，所有概率高于 threshold 的类。或者，你可以始终选择概率最高的类，在这种情况下，任何一个类都有可能被选中。

请注意，这个技巧（称为软类别）只适用于概率模型，并非所有机器学习算法都是概率性的。因此，选择模型在这里很重要。

学技术

如何训练多标签正确的机器学习分类模型？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复