如何分割测试和训练数据以确保每个类别在每个数据集中至少出现一次

我有一些相当不平衡的数据需要进行分类。然而,分类效果还不错。

为了准确评估效果,我必须将数据分割成训练和测试子集。

目前我使用非常简单的方法进行分割:

import numpy as npcorpus = pandas.DataFrame(..., columns=["data","label"]) # 我的数据,简化版train_index = np.random.rand(len(corpus))>0.2training_data = corpus[train_index]test_data = corpus[np.logical_not(train_index)]

这种方法简单明了,但有些类别出现的频率非常低:在超过50,000个案例的语料库中,约有15个类别出现的次数少于100次,其中两个类别各出现一次。

我希望将我的数据语料库分割成测试和训练子集,满足以下条件:

  • 如果一个类别出现少于两次,则从两者中排除
  • 每个类别在测试和训练集中至少出现一次
  • 测试和训练的分割在其他方面是随机的

我可以拼凑一些东西来实现这个目标,(最简单的方法可能是删除出现次数少于2次的项目),然后不断重新抽样直到分割的两边都有,但我想知道是否已经存在一种干净的方法来实现这一点。

我认为sklearn.cross_validation.train_test_split不适合这个用途,但它的存在表明sklearn可能有这种功能。


回答:

以下代码满足您分割数据成测试和训练集的三个条件:

#删除出现次数少于2次的项目corpus=corpus[corpus.groupby('label').label.transform(len)>1]from sklearn.cross_validation import StratifiedShuffleSplitsss=StratifiedShuffleSplit(corpus['label'].tolist(), 1, test_size=0.5, random_state=None)train_index, test_index =list(*sss)training_data=corpus.iloc[train_index]test_data=corpus.iloc[test_index]

我通过使用以下虚构的数据框测试了上述代码:

#创建带有0到39标签的随机数据,然后添加2个标签案例和一个标签案例。     corpus=pd.DataFrame({'data':np.random.randn(49998),'label':np.random.randint(40,size=49998)})corpus.loc[49998]=[random.random(),40]corpus.loc[49999]=[random.random(),40]corpus.loc[50000]=[random.random(),41]

测试代码时产生以下输出:

test_data[test_data['label']==40]Out[110]:            data  label49999  0.231547     40training_data[training_data['label']==40]Out[111]:            data  label49998  0.253789     40test_data[test_data['label']==41]Out[112]: Empty DataFrameColumns: [data, label]Index: []training_data[training_data['label']==41]Out[113]: Empty DataFrameColumns: [data, label]Index: []

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注