Home IT技术机器学习中的名义值数据集

机器学习中的名义值数据集

IT技术 xiaolong · 2025年4月7日 · 0 Comment

在机器学习中，将名义值（而非实数或布尔值）包含在特征向量子集中，最佳方法是什么？

我应该将每个名义值映射到实数值吗？

例如，如果我想让我的程序学习一个预测模型，用于网络服务用户，其输入特征可能包括

{ 性别(布尔), 年龄(实数), 职业(名义) }

其中因变量可能是网站登录次数。

变量职业可能是以下之一

{ 程序员, 艺术家, 公务员… }。

我应该将程序员映射到0，艺术家映射到1等等吗？

回答：

如果有必要，可以进行独热编码。

如果你的数据包含分类属性，建议使用能够很好处理此类数据的算法，而无需通过编码来处理，例如决策树和随机森林。

data-mining machine-learning

发表回复取消回复