假设我有一个数据集,其特征值是连续的,并且有多于两种可能的标签(例如:雨天、晴天、多风等),我在sklearn中应该实现哪种朴素贝叶斯模型?
我在考虑使用高斯或多项式模型。然而,多项式模型适用于离散特征,我尝试了高斯模型,但结果显示预测的准确性就像随机选择一样。
回答:
朴素贝叶斯分类(NBC)适用于离散值。这意味着你必须将所有连续的特征离散化。更多详情,请参考此链接。
无论如何,由于你有多个标签,多项式模型是正确的选择。但你也应该记住,你需要对标签进行独热编码(sklearn中的OneHotEncoder)。