Home IT技术使用Sci-kit Learn进行小型正样本集的机器学习实验设计

使用Sci-kit Learn进行小型正样本集的机器学习实验设计

IT技术 xiaolong · 2025年4月9日 · 0 Comment

我想了解如何在正样本极少而负样本很多的情况下进行训练的技巧。

我有大约40个正样本（关于特定主题的较长文章），以及大约19,000个负样本（大部分来自sci-kit learn的新闻组数据集）。我还有大约1,000,000条推文可以使用，这些推文与我试图训练的主题有关。负样本集与正样本集的规模差异是否会对训练分类器产生负面影响？

我想在sci-kit learn中使用交叉验证。我需要将数据分成训练/测试开发/测试集吗？我知道sci-kit中有预构建的库。你推荐或之前使用过的任何实现示例都会很有帮助。谢谢！

回答：

对于你的第一个问题，答案是肯定的，它对结果的影响程度取决于算法。我的建议是关注基于类的统计数据，如召回率和精确率（可以在classification_report中找到）。

对于RandomForest()，你可以查看这个讨论，其中讨论了样本权重参数。一般来说，sample_weight是你在scikit-learn中要找的。
对于SVM，你可以查看这个示例或这个示例。
对于NB分类器，这应该由贝叶斯规则隐式处理，但在实践中你可能会看到一些较差的表现。

对于你的第二个问题，这是有讨论余地的，个人而言，我将数据分为训练集和测试集，在训练集上进行交叉验证以估计参数，然后在所有训练数据上重新训练，最后在测试集上测试。然而，你的数据量可能会影响你分割数据的方式（数据越多，选项越多）。

machine-learning nlp scikit-learn

发表回复取消回复