多级别分类数据集的一元编码

我的数据集如下所示:

症状 (X) :: 病症 (Y)
发热,头痛,失明 :: 瓦格纳综合征
牙痛,发热,尿液甜 :: 布里布里病
失明,鼻出血,发热 :: 泰勒综合征

其中X是特征,Y是我的标签。我希望将X编码成一元编码矩阵。Pandas的get_dummies函数无法处理一列中的多个值,但如果我将X拆分成多列,我将失去将症状编码到同一个一元矩阵中的能力。

有什么建议吗?


回答:

你可以使用Sklearn的CountVectoriser来实现这一点,每个单词是一列,每行是一个观测。如果你将binary参数设置为true,对于每一行,如果单词存在,它将在该行|列中表示为1。将binary设置为False,它就是该单词在句子中出现的次数。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注