我对机器学习还比较新手,目前正在处理一个由分类数据组成的csv文件格式的数据集。作为预处理手段,我对数据集中所有的变量进行了独热编码(One Hot Encoding)。
目前我正在尝试应用随机森林算法,将条目分类到四个类别之一。我的问题是我不完全理解这些独热编码的变量会发生什么。我应该如何将它们输入到算法中?算法能够区分buying_price_high和buying_price_low(从buying_price独热编码而来)吗?
我还对响应变量进行了独热编码。
回答:
独热编码(One Hot Encoder)方法适用于类别变量,类别变量之间没有大小关系。对于价格变量,我建议你使用序数编码(OrdinalEncoder)。Sklearn是一个很好的机器学习包,例如,sklearn.preprocessing.OneHotEncoder或sklearn.preprocessing.OrdinalEncoder