我已经学习了自助法和分层方法。但是什么是分层自助法?它是如何工作的?
假设我们有一个包含n个实例(观察值)的数据集,m是类别的数量。我应该如何划分数据集,训练和测试的比例是多少?
回答:
你需要按类别划分你的数据集。随后,你从每个子群体中独立抽样。从一个子群体中抽样的实例数量应与其在总体中的比例相关。
data d(i) <- { x in data | class(x) =i } for each class for j = 0..samplesize*(size(d(i))/size(data)) sample(i) <- draw element from d(i) sample <- U sample(i)
如果你从一个包含类别{'a', 'a', 'a', 'a', 'a', 'a', 'b', 'b'}
的数据集中抽取四个元素,这个过程确保分层样本中至少包含一个类别b
的元素。