Home IT技术何时使用独热编码，何时使用虚拟变量？

何时使用独热编码，何时使用虚拟变量？

IT技术 xiaolong · 2025年4月12日 · 0 Comment

我有一个简短的问题。我想知道在什么情况下应该使用独热编码，什么情况下应该使用虚拟变量。

我计划对分类变量和数值变量进行聚类分析。我在一个论坛上读到，我可以尝试使用独热编码来编码分类变量。但我想知道它与虚拟变量有什么不同。

谢谢

回答：

大多数聚类算法都是基于距离的。

任何这种编码都是一种技巧，使分类数据看起来像是数值数据，但这只是推迟了由此产生的问题：如何归一化、加权、去相关和组合特征。

对于大多数聚类算法，使用0,1还是0,100000或是0,0.000001进行虚拟编码会产生巨大的差异。那么应该使用哪一种呢？对此没有客观的数学答案，这会导致严重的问题。

cluster-analysis machine-learning statistics

发表回复取消回复