我最近开始使用sklearn,并遇到了StratifiedShuffleSplit函数。虽然我理解它的概念和用途,但我并不完全明白它需要哪些参数才能正常工作,例如n_split。根据sklearn的文档,关于n_splits的描述如下:
n_splits : int, 默认值为10 重新洗牌和分割的迭代次数。
我的最佳猜测是,它告诉StratifiedShuffleSplit函数数据中有多少个层(strata)。
回答:
n_splits
是几乎所有交叉验证器的一个参数。一般来说,它决定了你将创建多少个不同的验证(和训练)集。如果你使用StratifiedShuffleSplit
,它并不表示层(strata)的数量——这些是从数据集中分类目标的相对频率中隐含得出的。
请看下面的官方文档引用(完整链接在这里)
StratifiedShuffleSplit
StratifiedShuffleSplit是ShuffleSplit的一个变体,它返回分层分割,即通过保持每个目标类在完整集合中的相同百分比来创建分割。