我的数据集如下:
profile category target0 1 [5, 10] 11 2 [1] 02 3 [23, 5000] 13 4 [700, 4500] 0
如何处理category特征?该表可能还有其他附加特征。一热编码会占用太多空间,因为数据集的行数大约有1000万。任何建议都会有所帮助。
回答:
MultiLabelBinarizer是解决此类问题的一种方法,它可以生成内存占用低的稀疏输出。你可以将其他特征转换为稀疏矩阵,然后将所有特征组合起来输入到机器学习模型中。