如何区分回归分析中的分类变量和顺序变量?

我在进行关于房屋数据的线性回归分析,目前有23个特征。其中一些特征显然是顺序变量(例如年份、房间数量、楼层)。还有一些特征是分类变量,我在将它们编码为数值格式时感到困惑。我对使用哪种编码方法犹豫不决:是使用用于分类变量的一热编码,还是仅对顺序数据使用顺序映射。我知道像颜色、性别、地区、国籍这样的分类特征必须使用虚拟编码。同样,显然像条件这样的分类特征,其可能的值为‘旧’、’翻新’、’新’,可以按顺序编码为1、2、3

但我不确定如何编码那些不太明显的特征。这些特征的性质不易察觉,在某种程度上可以同时归为顺序数据和分类数据。让我们看一个例子:

Strongly Agree Agree Undecided Disagree Strongly Disagree 

这是来自问题:https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

作者决定按顺序编码它们。有人建议使用虚拟编码。这不清楚。
另一个例子(材料):

PlasticWood    MetalArmored 

从我的角度来看,这些数据可以按顺序编码为1,2,3,4。简单来说,Armored比Metal贵,Metal比Wood贵,依此类推。但我在YouTube上看到一个讲座,讲到不要仅仅因为你看到一些上升或下降的模式就按顺序编码这些特征。这些模式可能是虚幻和错误的。

另一个例子(互联网连接类型):

DSLADSLSDSLCableBroadband

其中一些比其他快一些,但没有“明确的顺序”。对于这种“不清楚”的分类数据该怎么办?

如何区分分类数据和顺序数据?或者我是否只需要对像’条件’这样非常明显的顺序变量进行顺序编码,而将其他不清楚的变量保持为分类变量并使用虚拟编码?


回答:

我认为顺序变量是指你可以排序,并且答案超出你的值集仍然有意义的一个东西。一个好的例子是’同意’/’不同意’。你可以将它们映射到1-5的值,即使你得到2.3,你也大致知道这意味着什么:它比’同意’稍微多一点。但对于’塑料’/’木材’完全没有意义——那是分类变量。至于互联网连接类型,这取决于情况。如果我们谈论的是速度,并且你可以对这些连接进行排序,那么将其视为顺序变量可能是有意义的。但如果我们谈论的是例如调制解调器类型的流行度,那么它只是一个分类变量

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注