我有一个大型数据集,我试图为数据集中的所有实例估计函数f(x)。以下哪种方法更好?
方法1:从数据集中抽取N个实例,并对这些N个实例使用自助法来估计f(x)。
方法2:从大型数据集中M次抽取N个实例。然后为这M个样本情况中的每一个计算f(x),然后聚合(例如:平均)结果。
回答:
没有一个确定的答案,但通常使用更多数据集信息的方法会更好(不太容易过拟合)。所以如果你的决定是“应该只使用N个样本但在内部使用M次,还是使用M*N个不同的样本”,答案将是“在没有特定问题知识的情况下 – 选择第二种”。