我有一个关于机器学习问题中使用的交叉验证的问题。如果我们对一组数据进行5折交叉验证,例如在周一和周五各进行一次,两次是分开进行的。周一某一折中的元素与周五同一折中的元素是否相同?
这是否解释了为什么这段代码:
from sklearn.datasets import load_irisfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import cross_val_scoreiris=load_iris()X=iris.datay=iris.targetmodel=KNeighborsClassifier(n_neighbors=5)cvs=cross_val_score(model, X, y, cv=5)print(cvs)
在每次执行时总是给出相同的结果:
[0.96666667 1. 0.93333333 0.96666667 1. ]
回答:
正如您在cross_val_score的文档中所读到的,它在后台执行分层K折交叉验证,不会打乱您的数据(X, y)。因此,每次您计算cross_val_score
时,您都在相同的折上训练相同的模型,并在相同的折上进行验证,因此得到相同的结果。