Sci-Kit Learn的.fit(X,y)方法是否按顺序工作，如果不是，它是如何工作的？

我使用Sci-Kit Learn的svm库来对图像进行分类。我在想，当我对测试数据进行拟合时，它是按顺序工作的，还是会删除之前的分类材料并重新拟合到新的测试数据上。例如，如果我向分类器拟合了100张图像，我可以继续按顺序再拟合另外100张图像吗？还是SVM会删除它对最初100张图像所做的工作？这对我来说很难解释，所以我提供一个例子：

为了将SVM分类器拟合到200张图像上，我可以这样做吗：

clf=SVC(kernel='linear')clf.fit(test.data[0:100], test.target[0:100])clf.fit(test.data[100:200], test.target[100:200])

还是必须这样做：

clf=SVC(kernel='linear')clf.fit(test.data[:200], test.target[:200])

我之所以问这个问题，是因为当我尝试一次性使用.fit(X, y)处理太多图像时，会遇到内存错误。所以，是否可以按顺序使用fit方法并“增量”我的分类器，使其技术上是在10000张图像上训练的，但每次只处理100张。

如果这是可能的，请确认并解释？如果不可能，请解释？

回答：

http://scikit-learn.org/stable/developers/index.html#estimated-attributes

最后提到的属性在你第二次调用fit时预计会被覆盖，而不会考虑之前的值：fit应该是幂等的。

https://en.wikipedia.org/wiki/Idempotent

所以，是的，第二次调用会删除旧模型并计算新模型。如果你理解Python代码，你可以自己检查。例如在sklearn/svm/classes.py中

我认为你需要小批量训练，但我没有看到SVM的partial_fit实现，可能是因为scikit-learn团队推荐对于超过10万个样本的数据集使用SGDClassifier和SGDRegressor。http://scikit-learn.org/stable/tutorial/machine_learning_map/，尝试按照这里描述的使用小批量来使用它们。

学技术

Sci-Kit Learn的.fit(X,y)方法是否按顺序工作，如果不是，它是如何工作的？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复