如何处理训练数据中未包含所有预期类别的分类数据？

我的数据中有一个名为“级别”的特征，数据可能包含的级别有(-1,0,1,2,3)，但目前我的数据只包含了0和-1两个级别。我使用Python进行二元分类。如何对所有级别进行独热编码？处理这个问题正确的做法是什么？我可以在测试数据中包含所有可能出现的级别吗？还是应该只使用两个级别？

回答：

让我在这一块重新表述一下。

训练数据中的级别：

(-1, 0)

测试数据中的级别：

(-1, 0, 1, 2, 3)

我认为最佳方法是：

这样一来，通常情况下你会有两个级别（分别对应值为-1和值为0），第三个级别将在独热编码向量中所有值都为零。

学技术