Sci-Kit Learn的.fit(X,y)方法是否按顺序工作,如果不是,它是如何工作的?

我使用Sci-Kit Learn的svm库来对图像进行分类。我在想,当我对测试数据进行拟合时,它是按顺序工作的,还是会删除之前的分类材料并重新拟合到新的测试数据上。例如,如果我向分类器拟合了100张图像,我可以继续按顺序再拟合另外100张图像吗?还是SVM会删除它对最初100张图像所做的工作?这对我来说很难解释,所以我提供一个例子:

为了将SVM分类器拟合到200张图像上,我可以这样做吗:

clf=SVC(kernel='linear')clf.fit(test.data[0:100], test.target[0:100])clf.fit(test.data[100:200], test.target[100:200])

还是必须这样做:

clf=SVC(kernel='linear')clf.fit(test.data[:200], test.target[:200])

我之所以问这个问题,是因为当我尝试一次性使用.fit(X, y)处理太多图像时,会遇到内存错误。所以,是否可以按顺序使用fit方法并“增量”我的分类器,使其技术上是在10000张图像上训练的,但每次只处理100张。

如果这是可能的,请确认并解释?如果不可能,请解释?


回答:

http://scikit-learn.org/stable/developers/index.html#estimated-attributes

最后提到的属性在你第二次调用fit时预计会被覆盖,而不会考虑之前的值:fit应该是幂等的。

https://en.wikipedia.org/wiki/Idempotent

所以,是的,第二次调用会删除旧模型并计算新模型。如果你理解Python代码,你可以自己检查。例如在sklearn/svm/classes.py中

我认为你需要小批量训练,但我没有看到SVM的partial_fit实现,可能是因为scikit-learn团队推荐对于超过10万个样本的数据集使用SGDClassifier和SGDRegressor。http://scikit-learn.org/stable/tutorial/machine_learning_map/,尝试按照这里描述的使用小批量来使用它们。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注