我有两个数据集,其中一个是真实数据集,另一个是随机化数据集,其中的类别属性已经被随机打乱。我如何判断哪个是哪个?谢谢
回答:
训练一个分类器。能够得到有效分类器的数据集很可能是那个带有真实标签的数据集。在打乱的数据集上,任何分类器都不应该有效!
没有保证你能检测出来。如果你的数据之前就是随机的,打乱后也不会变得更随机;所以那时你无法做出决定。但如果数据集之前有良好的结构,那么打乱通常会破坏这种结构。
我有两个数据集,其中一个是真实数据集,另一个是随机化数据集,其中的类别属性已经被随机打乱。我如何判断哪个是哪个?谢谢
回答:
训练一个分类器。能够得到有效分类器的数据集很可能是那个带有真实标签的数据集。在打乱的数据集上,任何分类器都不应该有效!
没有保证你能检测出来。如果你的数据之前就是随机的,打乱后也不会变得更随机;所以那时你无法做出决定。但如果数据集之前有良好的结构,那么打乱通常会破坏这种结构。