我有一些相当不平衡的数据需要进行分类。然而,分类效果还不错。
为了准确评估效果,我必须将数据分割成训练和测试子集。
目前我使用非常简单的方法进行分割:
import numpy as npcorpus = pandas.DataFrame(..., columns=["data","label"]) # 我的数据,简化版train_index = np.random.rand(len(corpus))>0.2training_data = corpus[train_index]test_data = corpus[np.logical_not(train_index)]
这种方法简单明了,但有些类别出现的频率非常低:在超过50,000个案例的语料库中,约有15个类别出现的次数少于100次,其中两个类别各出现一次。
我希望将我的数据语料库分割成测试和训练子集,满足以下条件:
- 如果一个类别出现少于两次,则从两者中排除
- 每个类别在测试和训练集中至少出现一次
- 测试和训练的分割在其他方面是随机的
我可以拼凑一些东西来实现这个目标,(最简单的方法可能是删除出现次数少于2次的项目),然后不断重新抽样直到分割的两边都有,但我想知道是否已经存在一种干净的方法来实现这一点。
我认为sklearn.cross_validation.train_test_split不适合这个用途,但它的存在表明sklearn可能有这种功能。
回答:
以下代码满足您分割数据成测试和训练集的三个条件:
#删除出现次数少于2次的项目corpus=corpus[corpus.groupby('label').label.transform(len)>1]from sklearn.cross_validation import StratifiedShuffleSplitsss=StratifiedShuffleSplit(corpus['label'].tolist(), 1, test_size=0.5, random_state=None)train_index, test_index =list(*sss)training_data=corpus.iloc[train_index]test_data=corpus.iloc[test_index]
我通过使用以下虚构的数据框测试了上述代码:
#创建带有0到39标签的随机数据,然后添加2个标签案例和一个标签案例。 corpus=pd.DataFrame({'data':np.random.randn(49998),'label':np.random.randint(40,size=49998)})corpus.loc[49998]=[random.random(),40]corpus.loc[49999]=[random.random(),40]corpus.loc[50000]=[random.random(),41]
测试代码时产生以下输出:
test_data[test_data['label']==40]Out[110]: data label49999 0.231547 40training_data[training_data['label']==40]Out[111]: data label49998 0.253789 40test_data[test_data['label']==41]Out[112]: Empty DataFrameColumns: [data, label]Index: []training_data[training_data['label']==41]Out[113]: Empty DataFrameColumns: [data, label]Index: []