线性回归：用数值型替换预测变量的非数值型离散域

我有一个训练集，其中一个属性的域如下：

A = {Type1, Type2, Type3, ... ,Type5}

如果域保持这种形式，我无法应用线性回归，因为数学假设无法运作，例如：

H = TxA + T1xB + T2xC + ...

（假设除了A属性之外所有属性都是数值型，那么你不能将一个实值参数与类型相乘）

我可以用数值型、等价的离散值替换这个域，以便对这个问题进行线性回归吗？

A = {1, 2, 3, ...., 5 )

这是最佳实践吗？如果不是，请在这种情况下提供替代方案？

回答：

最佳实践是进行独热编码（one-of-K编码）：对于A可以采取的每个值，定义一个单独的指示特征。因此，对于五种“类型”，A = type1将是

[1, 0, 0, 0, 0]

而A = type3是

[0, 0, 1, 0, 0]

然后将这些向量与你的其他特征连接起来，使你的假设变为

H = w[Atype1] * [A=type1] + ... + w[Atype5] * [A=type5] + w[B] * B + ...

使用[]表示指示函数。

这避免了你方法的主要问题，即你引入了许多（可能是错误的）偏见，例如type5 = type2 + type3。要进一步理解为什么这种编码比你的编码更好，请参见我的这个回答。

学技术