Home IT技术使用Python挖掘大型数据集

使用Python挖掘大型数据集

IT技术 xiaolong · 2025年4月10日 · 0 Comment

我有一个超过5GB的数据集。是否有办法可以以随机梯度下降的方式逐块训练我的模型？换句话说，将数据集分成5个1GB的块，然后训练参数。

我想在Python环境中完成这个任务。

回答：

可以的。scikit-learn中的SGD有partial_fit方法；你可以用它来处理你的数据块。

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

partial_fit(X, y[, classes, sample_weight]) 使用随机梯度下降拟合线性模型。

machine-learning pandas python

发表回复取消回复