应该保留还是删除代表不同对象的相同训练样本?

我已经准备了一个数据集来识别某类对象(约2240个负面对象样本和仅约90个正面对象样本)。然而,在为数据集中每个对象计算了10个特征后,独特的训练实例数量分别下降到约130个和30个。

由于这些相同的训练实例实际上代表不同的对象,我是否可以说这种重复包含了相关信息(例如对象特征值的分布),这些信息可能以某种方式有用?


回答:

如果你省略了重复项,那将扭曲每个不同对象的基础率。如果训练数据是现实世界的代表性样本,那么你不希望这样做,因为你实际上是在为一个略有不同的世界(一个具有不同基础率的世界)进行训练。

为了澄清这一点,考虑这样一个场景:只有两个不同的对象。你的原始数据包含99个对象A和1个对象B。剔除重复项后,你有1个对象A和1个对象B。在去重数据上训练的分类器将与在原始数据上训练的分类器大不相同。

我的建议是保留数据中的重复项。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注