将整数编码转换为二进制编码的需要是什么?我查阅了不同的网站和教科书,但始终不明白它具体做了什么以及为什么需要这样做。我们有分类数据,可以将其转换为整数,到目前为止都很好。然而,为什么需要二进制编码呢?
我查看了为什么独热编码能提升机器学习性能?的回答,但仍然不太清楚。回答中说我们可以获得各自的权重,但即使是整数值,这不是也可能实现吗?
回答:
如果你将分类变量A
、B
、C
编码为整数1
、2
、3
,许多分类器会「假设」A(=1)小于B(=2)或C(=3)。这种假设关于你的分类变量之间的关系是错误的。
因此,你需要进行独热编码。