我的数据集总共有13个特征,其中5个是分类特征。这些特征分别有1700、25、65、275和3个不同的类别。我将在应用机器学习算法之前,使用可用的编码技术将这些分类特征转换为数值数据。
我正在处理的问题是多类分类问题。
我的问题是,我是否需要大量的数据(数十万)来使我的模型有效地学习我所拥有的每个类别的不同组合?
回答:
不,你不需要特别大量的数据。
这是关于高基数分类特征的常见问题,如果你查找相关信息,会发现很多资料。
一种方法称为目标编码,这种方法通过考虑目标(即标签)的相应值来对特征进行编码。
例如,可以参考 scikit-learn
中的 TargetEncoder。