为什么KNeighborsClassifier的cross_val_predict比fit慢这么多？

在本地Jupyter笔记本上运行，使用MNIST数据集（28k条目，每张图像28×28像素），以下代码花费了27秒。

from sklearn.neighbors import KNeighborsClassifierknn_clf = KNeighborsClassifier(n_jobs=1)knn_clf.fit(pixels, labels)

然而，以下代码花费了1722秒，换句话说，大约慢了64倍：

from sklearn.model_selection import cross_val_predicty_train_pred = cross_val_predict(knn_clf, pixels, labels, cv = 3, n_jobs=1)

我的初步理解是，cross_val_predict使用cv=3进行3折交叉验证，因此我预期它会拟合模型3次，所以应该至少慢3倍，但我不明白为什么会慢64倍！

为了检查是否是我的环境特有的问题，我在Colab笔记本上运行了相同的代码——差异没有那么极端（15倍），但仍然远高于我预期的约3倍：

我错过了什么？为什么cross_val_predict比单纯的模型拟合慢这么多？

如果这有关系的话，我正在运行scikit-learn 0.20.2版本。

回答：

KNN也被称为惰性算法，因为在拟合过程中它只是保存输入数据，具体来说根本没有学习过程。

在预测过程中，实际的距离计算才发生在每个测试数据点上。因此，你可以理解当使用cross_val_predict时，KNN需要在验证数据点上进行预测，这使得计算时间更长！

学技术