我的一个特征来自于“选择所有适用项”的问题形式。这意味着每个条目都有多个值,用逗号分隔,如下所示:
依此类推。我需要将其转换为数值数据,以便在我的机器学习模型中使用。类似于OneHotEncoder所做的。我该如何处理这种数据?
编辑:
这是我想象的结果应该是什么样子
回答:
你可以使用Series.str.get_dummies
,然后使用DataFrame.add_prefix
来获得你想要的列名:
df['Feature'].str.get_dummies(sep=',').add_prefix('feature_')
feature_option1 feature_option2 feature_option3 feature_option40 1 0 1 01 0 0 0 12 0 1 1 0