我的数据集如下所示:
症状 (X) :: 病症 (Y)
发热,头痛,失明 :: 瓦格纳综合征
牙痛,发热,尿液甜 :: 布里布里病
失明,鼻出血,发热 :: 泰勒综合征
其中X是特征,Y是我的标签。我希望将X编码成一元编码矩阵。Pandas的get_dummies函数无法处理一列中的多个值,但如果我将X拆分成多列,我将失去将症状编码到同一个一元矩阵中的能力。
有什么建议吗?
回答:
你可以使用Sklearn的CountVectoriser来实现这一点,每个单词是一列,每行是一个观测。如果你将binary参数设置为true,对于每一行,如果单词存在,它将在该行|列中表示为1。将binary设置为False,它就是该单词在句子中出现的次数。