Python 3.6: 处理内存错误

我为“机器学习”任务编写了一个软件。

为了完成这个任务,我需要将大量数据加载到程序的RAM中(用于所需的“fit”函数)。
在实际运行中,“load_Data”函数应该返回两个“ndarrays”(来自“numpy”库),每个数组的大小大约在12,000到110,000之间,类型为float64。

在运行过程中,我遇到了内存错误。
我测试了一个较小的数据集(2,000 x 110,000的数组),它可以正常工作。

我考虑了两个解决方案:
1. 使用内存更大的计算机(我现在使用的是8 GB的内存)。
2. 在“fit”方法中使用10次,每次处理数据集的不同部分。

所以,我想问:
解决方案#2是一个好方法吗?
还有其他解决方案吗?

非常感谢。


回答:

当然,第一个解决方案完全可行,但成本较高。但是,如果你有数百GB的数据集,你该怎么办?购买那么多内存对大多数消费者来说是难以承受的。

实际上,分批处理(如你所暗示的)是训练大型数据集最常见的方式。大多数机器学习工具包允许你以批次的方式提供数据。由于你没有提到你使用的是哪个工具包,我建议你参考例如Keras文档来了解如何设置分批处理。

编辑 对于scikit-learn,可以查看这里,了解支持分批处理的估计器列表。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注