分类问题可能会在给定的数据集中显示出强烈的标签不平衡。这可以通过对某些类别权重进行子采样来克服,这允许在模型训练期间至少平衡标签分布。另一方面,分层将允许保持某种标签分布,该分布在每个相应的折叠中保持不变。
对于回归问题,标准库(例如 scikit-learn)并没有定义这种方法。有一些方法可以覆盖分层,以及 Scott Lowe 撰写的关于回归子采样的理论方法在这里。
我想知道为什么机器学习社区对回归问题而非分类问题的标签平衡关注如此少?回归问题也展示出不同的特性,这些特性在数据收集环境中可能更容易或更难获取。那么,是否有任何框架或论文进一步解决了这个问题?
回答:
问题的复杂性在于回归的连续性。当你进行分类时,将它们分成类别是很自然的,因为它们基本上已经被分成了类别 🙂 现在,如果你有回归,分割的可能性基本上是无限的,最重要的是,你根本无法知道什么是好的分割。正如你发送的文章中所述,你可以应用排序或分数方法,但最终,你不知道它们在多大程度上是正确的。你也可以将它们分成区间。这是 stack 库所做的。在文档中,它说:“对于连续的目标变量,overstock 使用分箱和基于箱的分类分割”。他们所做的就是,首先将连续值分配到箱(类)中,然后对它们进行分层处理。
没有太多关于这方面的研究,因为你能想到的一切都将是启发式的。然而,如果你能结合一些领域知识,可能会有例外。例如,假设你试图从一些特征中预测某些电磁波的频率。在这种情况下,你有关于波频如何分割的先验知识。(https://en.wikipedia.org/wiki/Electromagnetic_spectrum) 所以现在自然可以根据它们的波长将它们分成连续区间,并进行回归分层。但在其他情况下,很难想出一些可以推广的东西。
我个人从未遇到过关于这方面的研究。