我向sgd_clf分类器传递了两组数据流,如下面的代码所示。第一次partial_fit使用第一组数据流x1,y1。第二次partial_fit使用第二组数据流x2,y2。
下面的代码在第二次partial_fit步骤时报错,提示必须事先包含类标签。当我将x2 y2的所有数据包含在x1, y1中时,这个错误消失了。(现在我的类标签在调用第二次partial_fit之前已经包含)
然而,我无法提前提供x2 y2数据。如果我在第一次partial_fit()之前提供所有数据,那我为什么还需要使用第二次partial_fit()?实际上,如果我事先知道所有数据,我不需要使用partial_fit(),我可以直接使用fit()。
from sklearn import neighbors, linear_modelimport numpy as npdef train_new_data(): sgd_clf = linear_model.SGDClassifier() x1 = [[8, 9], [20, 22]] y1 = [5, 6] classes = np.unique(y1) #print(classes) sgd_clf.partial_fit(x1,y1,classes=classes) x2 = [10, 12] y2 = 8 sgd_clf.partial_fit([x2], [y2],classes=classes)#Error here!! return sgd_clfif __name__ == "__main__": print(train_new_data().predict([[20,22]]))
问题1:我对scikit-learn分类器的partial_fit()的理解是否错误,它是否可以按这里指定的那样即时处理数据:增量学习
问题2:我想用新数据重新训练/更新模型。我不想从头开始训练。partial_fit能帮我实现这个吗?
问题3:我并不只限于使用SGDClassifier。我可以使用任何支持在线/批量学习的算法。我的主要意图是问题3。我已经在数千张图片上训练了一个模型。我不想仅仅因为有一两个新的图片样本就从头开始重新训练这个模型。我也不想为每个新条目创建一个新模型,然后将它们混合。这会降低我预测的性能,因为需要在所有训练模型中搜索。我只想通过partial_fit的帮助将这些新数据实例添加到已训练的模型中。这可行吗?
问题4:如果我无法用scikit分类器实现问题2,请指导我如何实现这一点
任何建议、想法或参考资料都非常受欢迎。
回答:
您需要事先知道您将需要多少个类别。在第一次调用partial fit之后,算法假定您之后不会添加新的类别。
在您的例子中,您添加了一个新的类(y2 = 8),这是之前从未见过的,并且在您初始调用partial fit时没有被指示存在(当时只包含标签“5”和“6”)。您需要在第一次调用时将其添加到classes对象中。
为了保持一致性,我还建议您从0开始编号您的类别。