我对如何处理机器学习算法中的分类数据有些困惑。我在网上找到了一些方法,包括:仅编码、编码后进行独热编码(OneHotEncoding),以及使用数字1、2、3等进行映射。有人能帮我理解什么时候应该使用这些方法吗?
回答:
根据数据的性质,你可以采用多种方式来编码你的分类数据。这还取决于你将要使用的算法,因为并不是每种模型都可以使用相同的编码方法。根据你的编码方法,你甚至可能需要改变模型的交叉验证策略以避免数据泄露。
查看这个 – https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02