我下载了皮肤分割数据集,发现其中包含了大量的重复数据。
例如,这行0 128 0 2
出现了199次。
请提供一些例子,说明在什么时候重复数据是有益的,什么时候是有害的。
回答:
当然可以,因为如果这是一个随机样本,它代表了数据中的基础分布,这表明这个特定值具有更高的概率。删除重复数据只会使数据集变得毫无用处。
我下载了皮肤分割数据集,发现其中包含了大量的重复数据。
例如,这行0 128 0 2
出现了199次。
请提供一些例子,说明在什么时候重复数据是有益的,什么时候是有害的。
回答:
当然可以,因为如果这是一个随机样本,它代表了数据中的基础分布,这表明这个特定值具有更高的概率。删除重复数据只会使数据集变得毫无用处。