如何分割测试和训练数据以确保每个类别在每个数据集中至少出现一次

我有一些相当不平衡的数据需要进行分类。然而，分类效果还不错。

为了准确评估效果，我必须将数据分割成训练和测试子集。

目前我使用非常简单的方法进行分割：

import numpy as npcorpus = pandas.DataFrame(..., columns=["data","label"]) # 我的数据，简化版train_index = np.random.rand(len(corpus))>0.2training_data = corpus[train_index]test_data = corpus[np.logical_not(train_index)]

这种方法简单明了，但有些类别出现的频率非常低：在超过50,000个案例的语料库中，约有15个类别出现的次数少于100次，其中两个类别各出现一次。

我希望将我的数据语料库分割成测试和训练子集，满足以下条件：

如果一个类别出现少于两次，则从两者中排除
每个类别在测试和训练集中至少出现一次
测试和训练的分割在其他方面是随机的

我可以拼凑一些东西来实现这个目标，（最简单的方法可能是删除出现次数少于2次的项目），然后不断重新抽样直到分割的两边都有，但我想知道是否已经存在一种干净的方法来实现这一点。

我认为sklearn.cross_validation.train_test_split不适合这个用途，但它的存在表明sklearn可能有这种功能。

回答：

以下代码满足您分割数据成测试和训练集的三个条件：

#删除出现次数少于2次的项目corpus=corpus[corpus.groupby('label').label.transform(len)>1]from sklearn.cross_validation import StratifiedShuffleSplitsss=StratifiedShuffleSplit(corpus['label'].tolist(), 1, test_size=0.5, random_state=None)train_index, test_index =list(*sss)training_data=corpus.iloc[train_index]test_data=corpus.iloc[test_index]

我通过使用以下虚构的数据框测试了上述代码：

#创建带有0到39标签的随机数据，然后添加2个标签案例和一个标签案例。     corpus=pd.DataFrame({'data':np.random.randn(49998),'label':np.random.randint(40,size=49998)})corpus.loc[49998]=[random.random(),40]corpus.loc[49999]=[random.random(),40]corpus.loc[50000]=[random.random(),41]

测试代码时产生以下输出：

test_data[test_data['label']==40]Out[110]:            data  label49999  0.231547     40training_data[training_data['label']==40]Out[111]:            data  label49998  0.253789     40test_data[test_data['label']==41]Out[112]: Empty DataFrameColumns: [data, label]Index: []training_data[training_data['label']==41]Out[113]: Empty DataFrameColumns: [data, label]Index: []

学技术

如何分割测试和训练数据以确保每个类别在每个数据集中至少出现一次

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复