随机森林的class_weight和sample_weight参数

我遇到了类别不平衡的问题，并尝试使用scikit-learn（版本>=0.16）中的加权随机森林进行实验。

我注意到该实现中，树构造函数中有一个class_weight参数，而fit方法中有一个sample_weight参数，用于帮助解决类别不平衡问题。这两个参数似乎是相乘的，以决定最终的权重。

我对以下问题感到困惑：

在树的构造/训练/预测的哪些阶段使用这些权重？我看到了一些关于加权树的论文，但我不确定scikit-learn是如何实现的。
class_weight和sample_weight之间的确切区别是什么？

回答：

随机森林是基于树构建的，树的文档非常详细。请查看树是如何使用样本权重的：

决策树用户指南 – 详细说明了使用的算法
决策树API – 解释了树如何使用sample_weight（正如你所确定的那样，对于随机森林，这是class_weight和sample_weight的乘积）。

至于class_weight和sample_weight之间的区别：仅从它们的数据类型就可以推断出很多信息。sample_weight是一个长度为n_samples的一维数组，为每个用于训练的样本分配一个明确的权重。class_weight要么是一个字典，将每个类别映射到该类别的统一权重（例如，{1:.9, 2:.5, 3:.01}），要么是一个字符串，告诉sklearn如何自动确定这个字典。

因此，给定样本的训练权重是其明确命名的sample_weight（如果未提供sample_weight，则为1）与其class_weight（如果未提供class_weight，则为1）的乘积。

学技术

随机森林的class_weight和sample_weight参数

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复