我已经准备了一个数据集来识别某类对象(约2240个负面对象样本和仅约90个正面对象样本)。然而,在为数据集中每个对象计算了10个特征后,独特的训练实例数量分别下降到约130个和30个。
由于这些相同的训练实例实际上代表不同的对象,我是否可以说这种重复包含了相关信息(例如对象特征值的分布),这些信息可能以某种方式有用?
回答:
如果你省略了重复项,那将扭曲每个不同对象的基础率。如果训练数据是现实世界的代表性样本,那么你不希望这样做,因为你实际上是在为一个略有不同的世界(一个具有不同基础率的世界)进行训练。
为了澄清这一点,考虑这样一个场景:只有两个不同的对象。你的原始数据包含99个对象A和1个对象B。剔除重复项后,你有1个对象A和1个对象B。在去重数据上训练的分类器将与在原始数据上训练的分类器大不相同。
我的建议是保留数据中的重复项。