Home IT技术如何处理Python Pandas中用于机器学习的多选数据

如何处理Python Pandas中用于机器学习的多选数据

IT技术 xiaolong · 2025年5月30日 · 0 Comment

我的一个特征来自于“选择所有适用项”的问题形式。这意味着每个条目都有多个值，用逗号分隔，如下所示：

依此类推。我需要将其转换为数值数据，以便在我的机器学习模型中使用。类似于OneHotEncoder所做的。我该如何处理这种数据？

编辑：

这是我想象的结果应该是什么样子

回答：

你可以使用Series.str.get_dummies，然后使用DataFrame.add_prefix来获得你想要的列名：

df['Feature'].str.get_dummies(sep=',').add_prefix('feature_')

   feature_option1  feature_option2  feature_option3  feature_option40                1                0                1                01                0                0                0                12                0                1                1                0

categorical-data geopandas machine-learning python

发表回复取消回复