Home IT技术多级别分类数据集的一元编码

多级别分类数据集的一元编码

IT技术 xiaolong · 2025年5月22日 · 0 Comment

我的数据集如下所示：

症状 (X) :: 病症 (Y)
发热，头痛，失明 :: 瓦格纳综合征
牙痛，发热，尿液甜 :: 布里布里病
失明，鼻出血，发热 :: 泰勒综合征

其中X是特征，Y是我的标签。我希望将X编码成一元编码矩阵。Pandas的get_dummies函数无法处理一列中的多个值，但如果我将X拆分成多列，我将失去将症状编码到同一个一元矩阵中的能力。

有什么建议吗？

回答：

你可以使用Sklearn的CountVectoriser来实现这一点，每个单词是一列，每行是一个观测。如果你将binary参数设置为true，对于每一行，如果单词存在，它将在该行|列中表示为1。将binary设置为False，它就是该单词在句子中出现的次数。

categorical-data machine-learning one-hot-encoding pandas

发表回复取消回复