独热编码是否能避免虚拟变量陷阱

独热编码中存在一种称为虚拟变量陷阱的情况。例如，当我们对有三个类别的分类列进行编码，假设类别为a、b和c时，使用独热编码会得到三个类别或列，即a、b和c。但是，当我们使用get_dummies时，我们只会得到两个列，即a和b，这样就避免了虚拟变量陷阱。独热编码是否会受到虚拟变量陷阱的影响，还是它能避免这个问题？我是否正确理解？哪一种方法能避免虚拟变量陷阱？或者是否可以不删除列就同时使用这两种方法？我使用这些数据集来进行多种算法的处理。

寻求帮助，提前感谢。

回答：

OneHotEncoder无法直接处理字符串值。如果你的名义特征是字符串，那么你需要先将它们映射为整数。

pandas.get_dummies则恰恰相反。默认情况下，它只将字符串列转换为独热表示，除非指定了列。

学技术

独热编码是否能避免虚拟变量陷阱

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复