实现AdaBoost算法的问题

我在尝试实现AdaBoost算法时,有两个问题需要解答。

1) 在每次迭代中,训练数据需要根据一个概率分布重新抽样。重新抽样的数据集大小是否需要与原始数据集大小相同?2) 如果我根据一个概率分布重新抽样训练数据集,很可能会得到某个数据点的多个副本。在每次迭代中训练弱分类器时,我是否应该保留所有这些冗余的副本?


回答:

1) 你不需要实际重新抽样数据集,只需在训练分类器时对数据点进行加权处理即可,即弱分类器的目标函数应是有权重的。

如果数据集的规模足够大,你也可以使用抽样方法,且抽样数据集的大小本身并不重要。

2) 如果你使用抽样方法并得到了冗余的副本,你绝对应该保留它们,否则弱分类器的目标函数将会正确。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注