我在这里找到一个相关的问题:如何在机器学习中对某些特征赋予更多权重?但那是针对特征的。
假设我有一个包含N个实例(或N行)的数据集,并且这些实例带有标签。
我知道有些标签是真实的,而其他一些标签则不确定,即有些标签中存在噪声。
如何将这些信息纳入机器学习模型中,例如xgboost,以便告知xgboost对带有已验证标签的实例赋予比未验证标签的实例更多的权重?
回答:
您可以构建一个DMatrix,并使用其weight属性为每个实例初始化权重。请查看这里的文档
或者使用fit方法中的sample_weight