如何对任意数量的分类变量进行分层K折拆分？

我有一个名为 df 的数据框，格式如下：

    cat_var_1    cat_var_2     num_var_10    Orange       Monkey         341    Banana        Cat           562    Orange        Dog           223    Banana       Monkey          6..

假设数据集中 cat_var_1 的可能值及其比例为 [‘Orange’: 0.6, ‘Banana’: 0.4]，而 cat_var_2 的可能值及其比例为 [‘Monkey’: 0.2, ‘Cat’: 0.7, ‘Dog’: 0.1]。

如何将数据拆分为训练集、测试集和验证集（60:20:20 的比例），同时保持分类变量的比例不变？在实际操作中，这些变量的数量可以是任意数量，而不仅仅是两个。此外，很明显，精确的比例在实践中可能无法完全实现，但我们希望尽可能接近这些比例。

我已经查看了 sklearn 中描述的 StratifiedKFold 方法：如何将数据集拆分为训练集和验证集，同时保持类别之间的比例？，但这种方法仅限于基于一个分类变量进行评估。

另外，如果您能提供您所实现的解决方案的复杂度，我将不胜感激。

回答：

您可以将 df.cat_var_1+ "_" + df.cat_var_2 传递给 StratifiedShuffleSplit.split() 的参数 y：

但这里有一个使用 DataFrame.groupby 的方法：





相关文章：

Matlab在多项式逻辑回归中的mnrfit函数是否有误？
支持向量机：什么是C和Gamma？
使用批量梯度下降法时权重错误
验证感知器学习示例
为什么这个卷积的输出具有这些维度？
XgBoost脚本输出不是二进制
如何处理分类器中的不平衡类别？
机器学习中参数、特征和类的区别
在TensorFlow上构建一个简单网络
如何找出K近邻算法中属性的权重？

学技术

如何对任意数量的分类变量进行分层K折拆分？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复