我在进行关于房屋数据的线性回归分析,目前有23个特征。其中一些特征显然是顺序变量(例如年份、房间数量、楼层)。还有一些特征是分类变量,我在将它们编码为数值格式时感到困惑。我对使用哪种编码方法犹豫不决:是使用用于分类变量的一热编码,还是仅对顺序数据使用顺序映射。我知道像颜色、性别、地区、国籍这样的分类特征必须使用虚拟编码。同样,显然像条件这样的分类特征,其可能的值为‘旧’、’翻新’、’新’,可以按顺序编码为1、2、3。
但我不确定如何编码那些不太明显的特征。这些特征的性质不易察觉,在某种程度上可以同时归为顺序数据和分类数据。让我们看一个例子:
Strongly Agree Agree Undecided Disagree Strongly Disagree
作者决定按顺序编码它们。有人建议使用虚拟编码。这不清楚。
另一个例子(材料):
PlasticWood MetalArmored
从我的角度来看,这些数据可以按顺序编码为1,2,3,4。简单来说,Armored比Metal贵,Metal比Wood贵,依此类推。但我在YouTube上看到一个讲座,讲到不要仅仅因为你看到一些上升或下降的模式就按顺序编码这些特征。这些模式可能是虚幻和错误的。
另一个例子(互联网连接类型):
DSLADSLSDSLCableBroadband
其中一些比其他快一些,但没有“明确的顺序”。对于这种“不清楚”的分类数据该怎么办?
如何区分分类数据和顺序数据?或者我是否只需要对像’条件’这样非常明显的顺序变量进行顺序编码,而将其他不清楚的变量保持为分类变量并使用虚拟编码?
回答:
我认为顺序变量是指你可以排序,并且答案超出你的值集仍然有意义的一个东西。一个好的例子是’同意’/’不同意’。你可以将它们映射到1-5的值,即使你得到2.3,你也大致知道这意味着什么:它比’同意’稍微多一点。但对于’塑料’/’木材’完全没有意义——那是分类变量。至于互联网连接类型,这取决于情况。如果我们谈论的是速度,并且你可以对这些连接进行排序,那么将其视为顺序变量可能是有意义的。但如果我们谈论的是例如调制解调器类型的流行度,那么它只是一个分类变量