我有一个简短的问题。我想知道在什么情况下应该使用独热编码,什么情况下应该使用虚拟变量。
我计划对分类变量和数值变量进行聚类分析。我在一个论坛上读到,我可以尝试使用独热编码来编码分类变量。但我想知道它与虚拟变量有什么不同。
谢谢
回答:
大多数聚类算法都是基于距离的。
任何这种编码都是一种技巧,使分类数据看起来像是数值数据,但这只是推迟了由此产生的问题:如何归一化、加权、去相关和组合特征。
对于大多数聚类算法,使用0,1还是0,100000或是0,0.000001进行虚拟编码会产生巨大的差异。那么应该使用哪一种呢?对此没有客观的数学答案,这会导致严重的问题。