我想知道weka.filters.supervised.instance.Resample
和weka.filters.unsupervised.instance.Resample
之间的区别是什么?在哪些情况下我们应该使用每一种方法?
回答:
监督和非监督重采样的文档是相同的,除了监督重采样的文档中有一句额外的说明:
该过滤器可以保持子样本中的类别分布,或者偏向于均匀分布的类别分布。
监督重采样还有一个额外的参数:
-B <num>偏向均匀类别分布的偏置因子。0 = 输入数据中的分布 1 = 均匀分布。(默认值0)
因此,监督重采样仅在存在类别变量时适用。当完全偏向输入分布(B=0)时,每个子样本都会复制完整数据集的类别分布。B=1相当于非监督重采样,其中点是从整个群体中均匀抽取的,不考虑类别。