在这种情况下:cross_val_score(GaussianNB(),features,target, cv=10)
我们是将数据随机分成10份,还是按顺序进行分割?
回答:
这取决于你如何设置cv参数。
如果因变量是二元或多类别,它将使用StratifiedKFold,否则将使用KFold。你也可以通过指定一个函数(来自sklearn或其他地方)来覆盖这些选项,以执行分割操作。
KFold函数会将数据按顺序分成若干折。如果你希望进行随机分割,可以将shuffle参数设置为True。如果你希望固定随机分割,可以为random_state设置一个值。如果不这样做,它会随机选择一个值,每次运行函数时折的划分都会不同。
对于StratifiedKFold,它会在分割数据时尝试保持每个分割中因变量的类别比例相同。因此,每次调用函数时可能会有轻微的变化。即默认情况下它不是按顺序进行的。