如果我的数据集中某一列只有三个可能的值,即0、1和2,那么如果我将它们声明为名义属性与数值属性,WEKA会如何不同地处理它们?
另外,如果某一列的属性有大量的名义值,是否有简单的方法来声明这个具有非常高序数值的名义属性?
回答:
大致来说(这取决于具体的算法):
当作为数值处理时,1到2和1到3的差异大约是前者的两倍。(假设没有其他属性)
当作为字符串处理时,它们可能被认为是同样不同的,因为’1′ != ‘2’ 且 ‘1’ != ‘3’。(然而,结果可能例如取决于这些数字的频率,例如,分类数据的常见差异度量涉及相对频率)